Sie sind auf Seite 1von 158

BI na Era do Big Data para Cientistas de Dados

indo alm de cubos e dashboards


na busca pelos porqus, explicaes e padres

Autor: Stanley Loh

1
Stanley Loh

BI na era do big data para cientistas de dados:


indo alm de cubos e dashboards na busca pelos porqus, explicaes e padres

1a edio

Porto Alegre

Stanley Loh

2014

2
Prefixo Editorial: 916683
Nmero ISBN: 978-85-916683-1-1

Copyright by Stanley Loh


Todos os direitos reservados.

Formas de citao:

LOH, Stanley. BI na era do big data para cientistas de dados - indo alm de cubos e
dashboards na busca pelos porqus, explicaes e padres. Porto Alegre, 2014.

Loh, S. (2014). BI na era do big data para cientistas de dados: indo alm de cubos e
dashboards na busca pelos porqus, explicaes e padres. Porto Alegre, 158 p.

3
Contedo
BI na Era do Big Data para Cientistas de Dados ............................................................ 1
indo alm de cubos e dashboards .................................................................................. 1
na busca pelos porqus, explicaes e padres .............................................................. 1
1 Introduo ........................................................................................................... 10
1.1 A Evoluo dos Sistemas de Informao ....................................................... 11
1.2 BI X Sistemas Gerenciais.............................................................................. 12
1.3 Dados X Informao X Conhecimento X Inteligncia ................................... 13
1.4 O que BI ento ? ........................................................................................ 14
1.5 Big Data e Information Explosion ................................................................. 15
2 Busca e Identificao de Padres ......................................................................... 17
2.1 Modelos e Padres ........................................................................................ 17
2.2 Contextualizao dos Modelos e Comparaes ............................................. 19
2.3 Padres X Excees: impreciso dos modelos............................................... 20
2.4 Analisar passado para criar modelos ............................................................. 21
2.5 Modelos para prever futuro ........................................................................... 22
2.6 Anlise de Correlao e Causa-Efeito ........................................................... 24
2.7 Dificuldades para identificar padres - pessoas e sistemas complexos ........... 25
3 Processo Geral de BI ........................................................................................... 28
3.1 Premissas do Processo de BI ......................................................................... 29
3.2 Quem deve participar do Processo de BI ....................................................... 30
3.3 Processo de BI Pr-ativo X Reativo: comear com ou sem hipteses ............ 30
4 Pr-processamento e Preparao de dados ........................................................... 33
4.1 Tratamento de valores nulos ......................................................................... 33
4.2 Deduplicidade de registros ............................................................................ 34
4.3 Integrao de bases (merge) .......................................................................... 34
4.4 Enriquecimento de dados .............................................................................. 35
4.5 Seleo de Amostras ..................................................................................... 36
4.5.1 Tipos de amostras .................................................................................. 37
4.5.2 Como separar amostras (subcolees ou subconjuntos) .......................... 38
4.5.3 Generalizaes e Especializaes........................................................... 39
4.5.4 Amostras por perodo de tempo - analisar ritmo ..................................... 40
4.5.5 Tamanho da amostra - quantidade de elementos na amostra ................... 41
4.6 Seleo de atributos ou campos para anlise - feature selection ..................... 42
4.6.1 Valores que predominam ....................................................................... 43
4.6.2 Dependncias funcionais........................................................................ 43

4
4.7 Discretizao - faixas ou grupos de valores ................................................... 44
4.8 Data Warehouse............................................................................................ 45
5 Tcnicas de Anlise de Dados ............................................................................. 46
Anlise qualitativa X quantitativa ........................................................................ 46
Qualitativo para quantitativo ............................................................................... 46
5.1 Data Mining - tcnicas tradicionais sobre dados estruturados ........................ 49
Associao .......................................................................................................... 49
Correlao ........................................................................................................... 51
Correlao assncrona ......................................................................................... 53
Anlise de Regresso e Modelos de Predio ...................................................... 53
Mdia .................................................................................................................. 55
Deteco de desvios (outliers) ............................................................................. 55
Sequncia de tempo............................................................................................. 56
Sries Temporais ................................................................................................. 57
Classificao (categorizao) .............................................................................. 59
Induo ............................................................................................................... 60
Clusterizao ou Agrupamento (clustering) ......................................................... 60
5.2 Anlise de cubos e anlise multidimensional OLAP...................................... 61
6 Interpretao dos resultados da anlise ................................................................ 66
6.1 Resultados condizem com a tcnica usada..................................................... 67
6.2 Indicadores escolhidos para BI - certos ou errados ........................................ 69
6.3 Teoria do Mundo Fechado ............................................................................ 70
6.4 Correlaes erradas ....................................................................................... 72
6.5 Sobrecarga e Rudos ..................................................................................... 74
7 Processo de BI reativo ......................................................................................... 76
8 Metodologia para BI proativo .............................................................................. 78
8.1 Seleo de dados e amostras ......................................................................... 79
8.2 Seleo da tcnica de anlise ........................................................................ 79
8.3 Anlise da coleo toda................................................................................. 80
8.3.1 Analisar percentual ou valores absolutos ................................................ 80
8.3.2 Soma X Contagem X Mdia .................................................................. 80
8.3.3 Percentual por linha X por coluna .......................................................... 82
8.3.4 O que predomina ................................................................................... 84
8.3.5 O que mais importante: o que raro ou o que comum ? .................... 84
8.3.6 Investigar padro normal e excees ou minorias ................................... 85
8.3.7 Qual probabilidade mnima interessante .............................................. 86
8.3.8 Medidas de Interestingness .................................................................... 87

5
8.4 Comparao de subcolees entre si ou em relao coleo toda ................ 88
8.5 Combinao e Integrao de padres ............................................................ 91
8.5.1 Hierarquia de padres e regras ............................................................... 92
8.5.2 Regras inversas ...................................................................................... 94
8.6 Avaliao e Teste de Hipteses ..................................................................... 94
8.7 Retroalimentao .......................................................................................... 97
9 Processo de BI como Descoberta e Investigao.................................................. 99
9.1 Descobrindo hipteses de causas................................................................. 100
A coleta inicial de dados.................................................................................... 100
Quantidade de informao X sobrecarga X rudos ............................................. 101
A observao direcionada, seletiva ................................................................. 102
A intuio para seleo de dados ....................................................................... 103
O hbito e a experincia para seleo de dados .................................................. 104
Heursticas para seleo de dados ...................................................................... 105
A observao influencia o ambiente .................................................................. 105
Fazer as perguntas certas ................................................................................... 106
Viso Holstica - Anlise do Contexto ............................................................... 106
Verificar o que comum a um conjunto de casos .............................................. 108
Verificar o que incomum ou diferenas entre grupos ...................................... 109
Benchmarking e Analogias ................................................................................ 110
"Reframe", repensar o problema ........................................................................ 111
Quebra de Paradigmas ....................................................................................... 112
Descoberta por acaso (serendipity) .................................................................... 113
9.2 Sinais fracos, fatos X opinies, rumores e boatos ........................................ 113
9.3 Anlise de causa-efeito ............................................................................... 115
Anlise de causa-raiz......................................................................................... 117
Avaliao sistmica dos dados .......................................................................... 118
Parcimnia conjunto mnimo de causas .......................................................... 120
9.4 Mtodos e Teorias para Investigao........................................................... 120
Mtodo Cartesiano ............................................................................................ 121
Mtodo Cientfico ............................................................................................. 121
Mtodo indutivo-dedutivo de Aristteles ........................................................... 121
Mtodo de Anlise e Sntese de Newton ............................................................ 122
Mtodo de Galileu ............................................................................................. 122
Raciocnio Abdutivo ......................................................................................... 122
Viso Sistmica e Pensamento Sistmico .......................................................... 123
Abordagem Sistmica ...................................................................................... 125

6
O 4o Paradigma de Jim Gray - a eScience ......................................................... 126
Mtodo de Investigao Criminal ...................................................................... 126
Mtodo do Sherlock Holmes ............................................................................. 127
Diagnstico Mdico .......................................................................................... 127
9.5 BI como um ato de criao.......................................................................... 128
9.6 Associaes Visuais - Anlise de Grafos, Redes e Mapas Mentais .............. 129
Determinismo X probabilismo........................................................................... 134
Descobrir novas ligaes ................................................................................... 134
Mapas e informaes geogrficas ...................................................................... 135
Uma Metodologia Associativa........................................................................... 136
10 Business Analytics ............................................................................................ 140
Previses ........................................................................................................... 140
As previses mudam com o passar do tempo ..................................................... 142
Raposas X Porcos-espinhos ............................................................................... 142
Estatsticas X Percepes humanas.................................................................... 142
O uso de intuies para previses ...................................................................... 144
11 Novos tipos de dados, tcnicas de coleta e anlise ............................................. 145
11.1 Coleta explcita X implcita X por inferncia ........................................... 145
11.2 Novas tecnologias para coletar e monitorar dados.................................... 147
11.3 Web Mining ............................................................................................ 147
11.4 Text Mining ............................................................................................ 148
11.5 Anlise de Sentimentos ........................................................................... 149
12 Concluso ......................................................................................................... 152
O Futuro do BI .................................................................................................. 152
Bibliografia ............................................................................................................... 153

7
Lista de Figuras
Figura 1: Dados X Informao X Conhecimento ......................................................... 13
Figura 2: Processo Geral de Descoberta de Conhecimento .......................................... 28
Figura 3: Grfico para mostrar discretizao de forma intuitiva ................................... 44
Figura 4: biorritmo num determinado dia .................................................................... 48
Figura 5: biorritmo para vrios dias............................................................................. 49
Figura 6: Associaes de valores entre 2 campos para Data Mining ............................ 50
Figura 7: Comparao de valores entre campos para Data Mining ............................... 51
Figura 8: Planilha de vetores e grau de correlao ....................................................... 52
Figura 9: Grficos semelhantes indicando correlao entre variveis ........................... 52
Figura 10: Correlao assncrona entre duas variveis ................................................. 53
Figura 11: Tcnica de Modelo de Predio .................................................................. 54
Figura 12: Tcnica da Mdia ....................................................................................... 55
Figura 13: Deteco de desvios (outliers) .................................................................... 56
Figura 14: Tcnica de anlise de sequncia temporal ................................................... 57
Figura 15: Exemplo de anlise de sries temporais - dentro da mesma srie ................ 58
Figura 16: Exemplo de anlise de sries temporais - comparao entre sries.............. 58
Figura 17: Sries temporais com diferena no momento de incio da srie................... 59
Figura 18: Exemplo de clustering ................................................................................ 60
Figura 19: Comparao de esquemas relacional X multidimensional para DWH ......... 62
Figura 20: Comparao de esquemas relacional X multidimensional para DWH ......... 62
Figura 21: Dados multidimensionais - exemplo para 3 dimenses ............................... 62
Figura 22: Estrutura de dados flat - todos atributos como colunas ............................... 63
Figura 23: Estrutura multidimensional - mquina X tipo de problema ......................... 64
Figura 24: Estrutura multidimensional - operador X hora em que ocorreu a falha ........ 64
Figura 25: Estrutura multidimensional - mquina + tipo de problema X hora .............. 65
Figura 26: Anlise OLAP com somente uma dimenso ............................................... 65
Figura 27: Mdia X Tendncia .................................................................................... 68
Figura 28: Mdia de gastos de clientes num supermercado, por perfil ......................... 68
Figura 29: Gastos de clientes num supermercado, por perfil, e classificados por faixa de
gasto ........................................................................................................................... 69
Figura 30: Venda de laranjas num supermercado ........................................................ 71
Figura 31: Teoria do Mundo Fechado ......................................................................... 72
Figura 32: exemplos de dashboards ............................................................................. 76
Figura 33: Anlise de vendas, utilizando contagem de registros .................................. 81
Figura 34: Anlise de vendas, utilizando soma de valores ........................................... 81
Figura 35: Valores percentuais por linha ..................................................................... 82
Figura 36: Valores percentuais por coluna ................................................................... 82
Figura 37: total de carrinhos com brinquedos - por perfil ............................................ 83
Figura 38: carrinhos com ou sem brinquedos - valor absoluto ..................................... 83
Figura 39: carrinhos com e sem brinquedos - % por linha ........................................... 83
Figura 40: Google Trends sobre Gripe A e Dengue no Brasil ...................................... 90
Figura 41: Google Trends sobre Gripe A e Dengue no Rio Grande do Sul................... 90
Figura 42: Grfico de Pareto ..................................................................................... 108
Figura 43: Diagrama de Ishikawa (causa-efeito ou espinha-de-peixe)........................ 118
Figura 44: Mapa Conceitual sobre Fatos e Dimenses............................................... 130
Figura 45: grafo para anlise de causas ..................................................................... 131
Figura 46: grafos combinados com hierarquias.......................................................... 132
Figura 47: Grafo de comunicao entre membros de equipes .................................... 133

8
Figura 48: Grafo com relaes entre conceitos .......................................................... 135
Figura 49: mapa para anlise de evoluo e disseminao de doenas ....................... 136
Figura 50: Metodologia Associativa - passo 2 ........................................................... 137
Figura 51: Metodologia Associativa - passo 3 ........................................................... 138
Figura 52: Novas hipteses e reviso do mapa - metodologia associativa .................. 139

9
1 Introduo
O melhor exemplo para explicar o que Business Intelligence (BI) para um leigo o
caso da GM e o sorvete de baunilha. Conta a lenda que um consumidor comprou um
carro da GM e depois mandou uma carta se queixando. A queixa era a seguinte: quando
ele ia na sorveteira e pegava o sorvete de baunilha, ele voltava para o carro e este
demorava a dar partida; se ele pegasse qualquer outro sabor de sorvete, ele voltava para
o carro e este "pegava" de primeira.

Conta ainda a lenda que isto virou piada na GM, uma vez que ningum imaginava o que
o sabor de um sorvete teria a ver com o problema no carro. Acredita-se que um
engenheiro foi investigar o caso. Apresentou-se ao cliente e juntos foram testar a teoria
que o cliente alegava. Foram at a sorveteria e compraram o sorvete de baunilha.
Voltaram para o carro e realmente o carro no deu partida na primeira tentativa nem nas
seguintes. Esperaram um pouco, e tentaram de novo. A sim o carro ligou. Voltaram
para a casa e depois de comerem o sorvete fizeram o mesmo teste s que pegando um
sorvete de sabor diferente. Quando voltaram para o carro, a surpresa: o carro "pegou" de
primeira. Bom, mas poderia ser acaso ou coincidncia. Ento testaram diversas vezes,
usando mtodos estatsticos e o resultado ... sempre o mesmo.

O engenheiro sabia que o sabor do sorvete no poderia influenciar o problema, mas


certamente ali havia algum fator que estaria associado ao problema. E este fator tinha a
ver com o sabor. Ento ele descobriu que o sorvete de baunilha ficava na entrada da
sorveteria, enquanto que os demais ficavam nos fundos. Ao entrar e comprar o sorvete
de baunilha, o dono do carro demorava menos que se pegasse outro sabor. Havia uma
pea no carro que precisava resfriar para o carro poder ligar. Menos tempo na
sorveteria, menos tempo para a pea resfriar e o carro no ligava. Desta forma, o
engenheiro descobriu a causa para o problema.

Eu sempre cito isto como um exemplo de BI, mesmo tendo sido feito manualmente, isto
, sem ajuda de bancos de dados e software (tecnologias da informao). Mas este caso
ilustra bem o objetivo de um processo de BI e como ele pode ser feito, no s para
leigos mas tambm para analistas de BI experientes.

Hoje em dia h diversas definies para BI e muitas vezes profissionais dizem estar
fazendo BI quando na verdade esto gerando informaes com sistemas de informaes
gerenciais, ou seja, atravs de ferramentas para gerao de dashboards, grficos,
relatrios e anlises visuais (visualizao de informaes).

A seguir, explicarei um pouco melhor o que entendo de BI e qual sua diferena para
sistemas gerenciais. Tambm falaremos da buzzword Big Data, o que significa e o que
implica para processos de BI.

O livro tem o objetivo primeiro de explicar tcnicas e mtodos que ajudem processos de
BI. Mas vamos procurar dar nfase ao que ainda no foi dito em outros livros do
gnero. Por isto, vamos enfatizar que o objetivo principal de um processo de BI
encontrar causas, explicaes e padres.

Estaremos trazendo conhecimentos de outras reas. Em muitas partes do livro, o leitor


talvez imagine estar lendo um livro sobre investigaes e descobertas cientficas. Isto

10
no est errado. No o nico enfoque, mas uma das formas de se ver o BI. Temos
muito a aprender com a histria dos grandes cientistas da Humanidade. A diferena
talvez no esteja nos mtodos, apesar de que eles tambm evoluem. Mas hoje temos
muito mais dados e mais complexos (Big Data) e ferramentas mais avanadas,
principalmente ferramentas de software. Por isto, o termo Cientista de Dados to atual.

Por isto, vamos enfatizar que os dados so muito importantes para o processo, incluindo
a forma e as condies como so coletados e armazenados. No basta discutirmos as
formas de anlise se os dados analisados no tiverem qualidade (garbage in, garbage
out).

O leitor se quiser poder pular algumas sees, conforme seu interesse. Os captulos no
esto numa sequncia de aprendizado. Dentro dos captulos sim, a ideia manter uma
certa ordem de leitura.

1.1 A Evoluo dos Sistemas de Informao

A Tecnologia da Informao, que inclui computadores, redes de comunicao e


software, iniciou nas organizaes para armazenar dados em grande volume e auxiliar
pessoas em clculos. Por isto, as primeiras aplicaes a serem automatizadas eram
controle de estoque, folha de pagamento e contabilidade. Os sistemas deste tipo
chamam-se rotineiros ou transacionais.

Com o passar do tempo, viu-se que era possvel extrair novas informaes daquelas
armazenadas e apresentar isto na forma de relatrios. Ento, de um sistema de controle
de estoque, era possvel saber quais os produtos mais vendidos, os que menos saam e
desenhar um grfico mdio das sadas dos produtos ao longo do tempo. Da mesma
forma, de um sistema de folha de pagamento era possvel saber qual o cargo ou setor
que mais custo dava para a empresa. E de sistemas de contabilidade, era possvel medir
o que j tinha sido gasto ao longo o tempo e o que se esperava recebe no tempo futuro.
Os relatrios evoluram para se tornarem sofisticados sistemas de informaes
gerenciais (SIGs), incluindo a gerao de diferentes tipos de grficos e painis com
diferentes informaes (dashboards). O livro de Bertin (1983) apresenta e explica as
aplicaes de diferentes tipos de grficos.

Apesar da utilidade incontvel dos sistemas de informaes gerenciais, o que faz deles
teis at hoje em qualquer empresa, profissionais tais como administradores, tomadores
de deciso, gestores de informaes e executivos ainda precisavam de um tipo de apoio
mais sofisticado, algo que pudesse facilitar a tomada de deciso.

Primeiro, era necessrio descrever dados para encontrar caractersticas para ajudar a
entender o que estava acontecendo ou o que havia acontecido. Esta a funo dos
modelos descritivos, que buscam identificar padres. Os sistemas de BI entram aqui,
auxiliando a entender por que as coisas acontecem, quais so as causas ou explicaes
para certos eventos ou fenmenos.

Aps os sistemas de BI, vm os sistemas de Business Analytics, que utilizam modelos


preditivos para tentar prever eventos futuros ou predizer valores para atributos. Incluem-

11
se neste tipo de apoio, os sistemas conhecidos como sistemas de apoio deciso
(SADs).

Ento podemos dividir o processo todo da seguinte forma, sistematizando o que se quer
saber em relao a como encontrar tais respostas:

O que aconteceu? Exemplo: quais os totais de venda no ms anterior.


Para isto, existem os SIGs, que buscam informaes em sistemas transacionais e geram
relatrios (novas informaes ou novas formas de apresentao).

O que est acontecendo ? Exemplo: nossas vendas esto crescendo ou diminuindo ?


Para isto, podemos usar tambm SIGs ou sistemas de Data Mining, que encontram
padres estatsticos nos dados.

Por qu ? Exemplo: por que as vendas esto caindo ?


Aqui que entra o BI, procurando descobrir as causas para os eventos observados.

O que acontecer no futuro ? Exemplo: se mantivermos os nveis de venda mas


diminuirmos o preo de venda, o que acontecer com nosso lucro ?
As previses e anlises what-if so feitas com sistemas de Business Analytics e
Sistemas de Apoio Deciso.

O que gostaramos que acontecesse ? Exemplo: queremos aumentar a receita total em


10%.
Aqui so essenciais tcnicas de planejamento e definio de metas. Mas elas s
funcionam quando entendermos as causas e inter-relaes entre variveis.

1.2 BI X Sistemas Gerenciais

Hoje em dia, BI confundido com as aplicaes que geram relatrios, chamadas h


muito tempo de Sistemas de Informaes Gerenciais - SIGs (em ingls, Management
Information Systems - MIS). SIGs e EIS (Executive Information Systems) geram
relatrios, geralmente grficos, sintetizando informaes ou permitindo compar-las.
Eles geram informaes novas, que no estavam explcitas na base de dados, ou
permitem visualizar as informaes de tal forma que o usurio do sistema descubra
rpida e facilmente algo novo. Como exemplos, temos relatrios que apontam os
produtos mais vendidos ou mais lucrativos, melhores vendedores ou lojas com melhores
resultados, poca em que cada produto sai mais ou menos (vendas ao longo do tempo) e
etc.

Tais sistemas so h muito tempo importantes para as empresas. Entretanto, o BI deve ir


mais fundo que os SIGs, seu papel mais nobre. O processo de BI deve ajudar as
pessoas a descobrirem as causas para tais acontecimentos ou descobertas. Assim, o SIG
aponta qual o produto mais vendido, mas o BI deve procurar descobrir porque este
produto mais vendido que os outros ou porque os outros no vendem to bem. O SIG
aponta a poca em que um produto vende mais, j o BI busca saber por que o produto
vende mais nesta poca e menos nas outras.

12
Em resumo, SIGs ajudam a entender o que aconteceu ou o que est acontecendo (ex.:
totais de venda no ms anterior, qual a taxa de crescimento de nossas vendas); BI
procura por causas ou explicaes (ex.: por que as vendas esto caindo).

Ambos os tipos de sistemas de informao (SIGs e BI) procuram auxiliar na tomada de


deciso, uma vez que este o objetivo geral de qualquer sistema de informao.
Entretanto, a forma de apoio que diferente em cada tipo.

1.3 Dados X Informao X Conhecimento X Inteligncia

importante distinguir dados, informao, conhecimento e acrescentar o conceito de


inteligncia. A Figura 1 apresenta uma tabela. O valor 35 na 2a linha com a 2a coluna
um dado. Dados so representaes de informaes. Sozinhos no dizem nada. Quando
entendemos que o 35 significa a idade do cliente Jos, em anos, estamos transformando
o dado em informao. As pessoas trabalham com informaes mas a tecnologia
armazena dados.

J conhecimento seria: Todos os clientes da cidade de SP tm saldo mdio maior que 9


mil reais. Notem, isto no uma informao explcita na tabela. S conseguimos
chegar a este conhecimento se cruzarmos informaes diferentes. Conhecimento,
portanto, vem das informaes, mas est acima. As pessoas recebem muitas
informaes no seu dia a dia, mas nem tudo fica retido, nem tudo til, nem tudo ser
utilizado mais adiante. O que resta, o que til, o que utilizado forma o conhecimento
desta pessoa.

Cliente Idade Saldo Mdio Cidade


Jos 35 9000 SP
Joo 30 4000 Santos
Ana 25 8600 Rio
Maria 23 3000 Ribeiro Preto
Carlos 34 9700 SP
Figura 1: Dados X Informao X Conhecimento

J o conceito de Inteligncia (alguns chamam Sabedoria) est acima de conhecimento.


Imagine um grupo de pessoas numa sala fechada (nada entra ou sai) recebendo uma
tarefa: quebrar a cadeira onde esto sentados. Admitamos que todos possuem a mesma
fora fsica e foram criados e educados em famlias e escolas semelhantes. Ou seja,
possuem o mesmo nvel de conhecimento, obtido por estudos nas escolas, leituras em
casa, viagens, experincias, etc. Algumas destas pessoas conseguiro resolver o
problema e outras no. Mas por que, se todas possuem a mesma fora fsica e os
mesmos conhecimentos ? A diferena est na forma como cada um utiliza o

13
conhecimento que tem e as conexes que faz em seu crebro. Isto inteligncia, ou seja,
saber resolver problemas utilizando o conhecimento que possui. E isto se aplica tambm
a poder resolver problemas novos, usando adaptaes, analogias, etc.

BI ento, como o nome "inteligncia" indica, deve ajudar pessoas e organizaes a


resolverem seus problemas e alcanarem seus objetivos.

1.4 O que BI ento ?

Primeiro de tudo, cabe salientar que BI um processo. Existem tcnicas, tecnologias e


software para BI, mas BI um processo que envolve mtodos, tcnicas, tecnologias,
pessoas, informaes, fontes de informaes, mtricas, ferramentas, etc.

Em resumo, o processo de BI tem por objetivo encontrar causas ou explicaes para


eventos ou resultados. E estes resultados podem ser bons ou ruins, ou seja, o BI deve
procurar causas dos problemas e as melhores prticas do sucesso. No basta saber qual
o problema mais comum em mquinas de uma indstria; a empresa precisa saber o
porqu disto, para poder atacar as causas e diminuir os prejuzos. No basta saber qual o
melhor vendedor, a empresa precisa saber por que ele o melhor, para que as tais boas
prticas deste vendedor possam ser replicadas para todos os outros vendedores.

O processo de BI pode fazer uso de sistemas gerenciais, ferramentas de Data Mining e


tudo isto com dados vindos de sistemas rotineiros ou transacionais. Podemos dizer que
BI est na ponta do fluxo de informao, muito prximo de quem toma decises.

O grande objetivo do BI acabar com o "achismo" ou "empirismo". Ouve um caso em


que os ouvidores de uma concessionria de rodovias achavam que o trecho mais
problemtico era um. Quando foram feitas anlises estatsticas sobre as ocorrncias
registradas, descobriu-se que o trecho com mais problemas era outro.

O conhecimento nos faz mais inteligentes; pessoas e empresas que aprendem. Como
Kuhn relata, at a metade do sculo 19 no se usava conhecimento na indstria, somente
nas Cincias. Assim como o conhecimento cientfico mudou o paradigma da Cincia na
idade mdia, o uso intensivo de conhecimento acelerou inovaes e permitiu indstria
aproveitar os que as metodologias cientficas ensinavam nas cincias, fazendo a prtica
da indstria menos emprica.

BI tambm procura encontrar explicaes para eventos mas fundamentadas em dados.


No basta saber o que est acontecendo, preciso analisar as causas para poder repetir o
sucesso ou evitar fracassos.

A busca por padres tambm objetivo do BI. No oceano de dados, preciso tentar
encontrar uma ordem para que os dados possam fazer sentido e serem teis. Uma base
de clientes onde no conseguimos identificar quem nosso cliente, o que ele quer, quais
suas caractersticas, no serve para nada alm de confundir.

E isto tudo fez surgir a Era do Conhecimento, apoiada pelas chamadas tecnologias da
informao.

14
1.5 Big Data e Information Explosion

Estamos vivendo numa era de grandes volumes de informaes. O volume de


informaes medido em exabytes. A escala assim: bit, byte, kylobyte, megaybte,
gigabyte, terabyte, petabyte, exabyte, zettabyte, yottabyte.

Chamam isto de Big Data (Tole, 2013), mas anos atrs Korth e Silberschatz j falavam
sobre isto e chamavam esta nova revoluo de "exploso de informaes". Sim eles
comparavam estes novos acontecimentos a revolues como a inveno da imprensa
por Gutenberg (distribuio de informaes a todo canto do mundo) e inveno do
telefone por Graham Bell (informao distribuda imediatamente, em tempo real).
O volume aumenta a cada ano pelas seguintes razes:
o armazenamento de dados hoje barato (discos rgidos e DVDs) ou mesmo de
graa (servios de hospedagem free na Web);
as pessoas esto mais familiarizadas com a tecnologia e consequentemente geram e
armazenam mais informaes (crianas de 2 anos j sabem usar celulares e
computadores e a 3a idade est menos tecnofbica);
a tendncia atual de "no jogar nada fora", que comeou com o Gmail dizendo que
ningum precisava "deletar' seus e-mails;
mais possibilidades de servios para publicar e difundir informaes (blogs, twitter,
e-mail, redes globais, conexes sem fio, etc.).

A Revista Veja, edio de maio de 2013 (ed.2321, n.20, ano 46) tratou deste assunto na
sua reportagem de capa. Eles falam que o Big Data se deve a 3 Vs: volume, velocidade
e variedade. Alm do grande volume de dados gerados, coletados, armazenados, etc, a
velocidade de transmisso (banda larga por cabo ou 3G ou wifi etc.) e a diversidade de
tipos de informaes (planilhas, textos, imagens, sons) ajudam a sobrecarregar o ser
humano e as organizaes.

Segundo a reportagem da revista Veja, a cada dia:


- 2,5 exabytes de informao so produzidos pela humanidade;
- 375 megabytes de dados so acumulados por cada famlia;
- 24 petabytes so processados pelo site do Google;
- 10 petabytes correspondem aos e-mails enviados;

E ainda, 385 terabytes guardam todo o catlogo da Biblioteca do Congresso americano,


a maior do mundo, enquanto que 1,8 zettabyte armazena todos os dados acumulados
pela civilizao em um ano. Comparando com os 3 exabytes que a humanidade
conseguia guardar em 1986 (hoje produzimos quase o dobro disto em 2 dias), estamos
vivendo em tempos exponenciais.

Alm disto, a complexidade do ser humano foi passada para a Tecnologia da


Informao. Hoje podemos armazenar dados no estruturados, ou seja, imagens, vdeos,
sons e textos.

E some-se a isto tudo a possibilidade de anlises mais complexas com o


desenvolvimento de softwares com funes de Inteligncia Artificial. Se antes, os
gestores apenas queriam encontrar endereo de clientes num banco de dados, hoje
querem saber qual a faixa de idade que mais compra os produtos de uma certa faixa de
preo e isto tudo apresentado por loja, cidade e pas.

15
Algum vai dizer que o volume de informaes bom, porque as pessoas e
organizaes possuem mais informao para tomar decises. Por outro lado, vivemos
no stress por termos mais opes para escolher, mais informaes para ler, mais
conhecimento para aprender e por no conseguirmos lidar com tanta informao
disponvel e nem mesmo conseguir encontrar as informaes que precisamos
(information overload). como uma mesa cheia de papis e a gente sabendo que a
informao que a gente procura est em algum destes papis nesta mesa.

BI passa ento a ser primordial para as organizaes poderem funcionar de forma


"organizada" e no se afogarem com tanta informao.

16
2 Busca e Identificao de Padres

Quero ratificar mais uma vez que o objetivo do processo de BI ajudar pessoas e
organizaes a encontrarem causas e no s apresentar informaes, como fazem
sistemas gerenciais. A busca por causas passa por analisar dados, talvez grandes
quantidades, procura de padres, modelos ou repeties. Se no encontrarmos
padres, no temos como afirmar quais eventos geram quais consequncias. Ser uma
confuso de dados, sem ordem, sem explicaes.

A identificao de padres parte da nossa vida. A descoberta de padres iniciou h


milhares de anos atrs. Nossos antepassados conseguiam prever as variaes do tempo,
as estaes, os ciclos das plantaes, as fases lunar e eclipses, e at mesmo o surgimento
de reis. E hoje em dia no diferente. Quem no d palpites sobre como ser o tempo,
se vai chover, fazer sol, calor, observando as nuvens ? Ou se o prximo inverno ser
mais frio ou menos frio do que o ano anterior, pelo que viu no outono ? Se um local
pblico vai lotar ou no para um evento, observando o movimento das pessoas
chegando ? Ou quantas pessoas h num concerto ao ar livre num parque pblico,
lembrando o ltimo evento que ocorreu ali ? Mesmo algumas supersties so exemplos
de padres, que acreditamos que iro se repetir. Numa entrevista de negcios, usar a
mesma roupa de um acontecimento bom. Sentar no mesmo lugar do ltimo ttulo para
torcer por seu time. No quebrar espelho, pois quando isto ocorreu, um evento de m
sorte tambm ocorreu junto.

Vemos padres no ambiente, no que vemos e sentimos e da criamos modelos para o


clima, trnsito, esteretipos de pessoas, etc. Alguns modelos mais completos que outros,
alguns mais precisos, outros com mais excees. Vemos at mesmo padres na nossa
prpria vida. Wolf (2010) relata uma srie de casos de pessoas analisando seus prprios
dados. Como o cara que descobriu estatisticamente que caf no ajudava na
concentrao dele (ele acreditava no contrrio, mas fez experimentos e descobriu um
novo padro, mais exato).

2.1 Modelos e Padres

A classificao um instinto do ser humano. Tentamos colocar tudo em grupos


(pessoas, produtos, eventos, animais, plantas, etc.). Mesmo num texto como este, as
informaes esto agrupadas. Acreditamos que podemos reduzir tudo a um modelo
nico ou a poucas regras. Esta a busca eterna dos fsicos, para entender a Natureza e o
Universo. Einstein acreditava que h uma ordem na desordem, mas que os padres
ainda devem ser descobertos.

A classificao facilita nosso entendimento do mundo e agiliza nossa tomada de


deciso. Os padres servem para minimizar a incerteza. Se encontramos uma situao
nova e verificamos que ela se encaixa num padro j entendido, j sabemos que atitudes
tomar naquela situao. Este um dos conceitos de inteligncia: saber adaptar-se a
novas situaes e conseguir resolver problemas novos. Isto no significa que vamos

17
usar exatamente as mesmas aes. A inteligncia humana pressupe a adaptao dos
padres para novas realidades.

A melhor forma de entender um conjunto de dados estabelecer um modelo para ele. O


modelo explicaria as caractersticas comuns aos dados, as relaes entre os dados, as
relaes de causalidade e influncia ao longo do tempo. O ser humano busca padres no
seu contexto porque se sentir mais parte do contexto e menos um aliengena. como
uma necessidade humana, para no ficarmos loucos. O que no se encaixa nos nossos
padres, como por exemplo eventos paranormais, acabamos considerando como
bruxarias.

Mas o que um modelo ? Vejamos algumas definies de modelo: aquilo que serve de
objeto de imitao; aparelho ou conjunto de aparelhos que permitem a reproduo de
determinada pea por processos usados em fundio para o preparo de objetos de metal;
molde; prottipo ou exemplo que se pretende reproduzir ou imitar; um exemplar que se
deve seguir e imitar pela sua perfeio; imagem ou desenho que representa o objeto que
se pretende reproduzir esculpindo, pintando ou desenhando; pessoa exemplar, perfeita,
digna de ser imitada; esquema terico em matria cientfica representativo de um
comportamento, de um fenmeno ou conjunto de fenmenos. No contexto deste livro, a
melhor definio a ltima: um esquema ou estrutura que representa um
comportamento (de um evento ou conjunto de eventos). Ao longo deste livro, usaremos
alguns sinnimos para modelo, tais como: padro, regras, leis, teoria, regularidade,
cdigo, paradigma. No h uma explicao cientfica para tais escolhas. Isto demandaria
muito espao num livro que pretende ser prtico.

A finalidade dos modelos permitir o entendimento de um conjunto de eventos, poder


comunicar a outros, poder reproduzir este comportamento. Os modelos so construdos
a partir de experincias passadas, de registros de casos que j aconteceram, com suas
caractersticas descritas (o que, quando, onde, por que, com quem e como aconteceram -
os 5W e 1H). Sem registros histricos no h como identificar padres e da montar
modelos.

Modelo no inclui tudo, uma representao da realidade, de parte dela, para um fim
especifico. O processo de BI ento procura por modelos que possam explicar os
acontecimentos passados ou atuais. Estamos interessados nas caractersticas deste
modelo e em como ele pode relacionar os eventos entre si. Isto tudo para evitar ou
eliminar as causas de problemas ou para que possamos repetir as causas de boas
prticas.

O modelo permite completar um cenrio. A partir de dados que temos como fatos,
encaixados no modelo, podemos saber de outros dados que no temos (a chamada
inferncia). Se um evento aconteceu dentro de um modelo, podemos completar os dados
que nos faltam sobre este evento. Por exemplo, usando modelos matemticos e fsicos
aplicados a dados observados no ambiente, peritos podem saber a velocidade a que um
carro estava no momento de um acidente. Os modelos tambm nos ajudaro a encontrar
causas para os eventos, como ser discutido adiante neste livro.

Mas os modelos esto tambm associados ao futuro. Eles nos servem para direcionar
nossas decises e aes. Por isto, usamos muitas vezes o termo "modelo de predio",
porque usando modelos podemos "prever" o futuro (ou tentar, pelo menos). Modelos

18
so utilizados para previso do tempo, para previso de colheitas, de nveis de vendas,
de quebra de mquinas, possibilidade de voto numa eleio (como discutido em
Moraes, 2012), possibilidade de um cliente fechar uma venda, possibilidade de ocorrer
um sinistro (em empresas de seguro), de um cliente pagar ou no um emprstimo, e para
outros tantos fins como veremos neste livro.

2.2 Contextualizao dos Modelos e Comparaes

Os modelos ento servem para entendimento de alguns aspectos da realidade (talvez a


maioria, mas no todos), para predizer algumas situaes (no todas, nem algumas
poucas com total acurcia), para que possamos diferenciar contextos (gerais ou
especficos), para que nossa vida no seja uma total escurido e nossos caminhos
possam ser trilhados com um mnimo de planejamento.

Todo modelo uma especializao ou generalizao da realidade, e toda especializao


uma abstrao, ou seja, s absorve parte da realidade. Um prottipo de automvel de
tamanho reduzido ter apenas o design exterior do produto final, mas servir para
avaliar a aerodinmica do projeto. J um prottipo em tamanho real deste carro servir
para crash testes mas no ter os acessrios interiores, nem a pintura final. Por outro
lado, uma classificao tnica uma generalizao, pois tenta encaixar todas as pessoas
em algum grupo existente ou pr-definido. Portanto, o modelo deve ser estudado dentro
do seu contexto especfico.

Entretanto, entender os limites (escopo) do contexto no uma tarefa fcil. Se temos um


modelo que prediz o quanto um cliente com perfil Y ir gastar no Dia das Mes, temos
que entender que este modelo de predio s serve para os parmetros definidos no
modelo (sexo, renda, idade, estado civil, etc. do cliente). Se algum outro atributo fora
deste contexto (por exemplo, altura do cliente) puder influenciar os resultados, a
predio dada pelo modelo conter uma margem de erro. E se houver vrios destes
atributos, a margem de erro aumenta.

O conhecimento das informaes ou dos dados isolados insuficiente (Morin, 2000,


p.36). Precisamos sempre estar fazendo comparaes. assim que o ser humano pensa.
O preo das coisas determinado pela relatividade, em relao ao preo de outras coisas
e em relao ao que outras pessoas esto pagando.

Como discutiremos neste livro, encontrar as causas que levam um produto a ser mais
vendido que outros exige tambm comparar tais causas com problemas que impedem a
venda de outros produtos. Descobrir que um modelo explica por que uma mquina
estraga mais frequentemente que outra, inevitavelmente nos leva a pensar em que boas
prticas so utilizadas nas mquinas que no estragam to facilmente.

O ritmo com que produtos so vendidos, os seus perodos de baixa, de alta e de


normalidade naturalmente uma comparao. Da mesma forma, encontrar o que
comum no comportamento dos melhores alunos uma comparao, assim como
identificar um aluno raro, com alto desempenho, s possvel por comparao.

A granularidade da comparao relativa a cada objetivo. O BI pode preocupar-se em


comparar vendas dentro de uma cidade ou no pas todo. E mesmo uma empresa que no

19
faa vendas no exterior, pode querer comparar seu desempenho com empresa similares
em outros pases.

Portanto, um modelo deve obrigatoriamente permitir comparaes. Eventos ou valores


absolutos no dizem nada. E um modelo s funciona no contexto onde foi identificado.
Se conseguirmos extrair de um caso real um modelo matemtico que simule e explique
como duas populaes de espcies diferentes (por exemplo, lobos e ovelhas) iro se
comportar, tal modelo s ir funcionar no contexto em que foi identificado. Se foi numa
ilha, que tipo de ilha e com que recursos. Qual o nmero inicial de cada populao e
quais as caractersticas de cada componente dos grupos. O modelo no ir funcionar se
colocarmos os mesmos grupos junto com outros.

2.3 Padres X Excees: impreciso dos modelos

Os modelos podem no ser precisos. preciso avaliar quando, onde, como e por que os
modelos acertam ou erram. Para tanto, devem ser feitos experimentos controlados.
Fazendo novas observaes, poderemos verificar se elas se encaixam no modelo. Se
sim, confirmam o modelo. Se no, exigem algum refinamento do modelo ou mesmo a
desistncia dele. Entretanto, impossvel fazer todos os testes necessrios ou coletar ou
observar todos os eventos necessrios. Hans Reichenbach comenta o caso de avaliar
remdios utilizando placebo; isto pode durar muito tempo ou no ser possvel de ser
realizado pela dificuldade em encontrar cobaias.

Karl Popper props o falseamento para comprovao de modelos e teorias. A ideia


consiste em procurar um caso (exemplo) que no se encaixa no modelo ou padro. Se
no for possvel encontrar tal caso, a teoria poderia ser dita verdadeira. Se no for
possvel procurar por um tal caso, a teoria no poder ser provada. Por isto que Popper
(1980) diz que Astrologia e Numerologia explicam tudo.

claro que o falseamento depende do modo como esta busca foi feita. Nunca ser
possvel dizer com total certeza que todos os casos foram testados ou que no existe um
caso tido como exceo. A verdade sempre ser que no foi encontrado nenhum caso
pelo modo como a busca foi feita.

A predio de eventos futuros pode ajudar a validar um modelo. Se um modelo puder


ser utilizado para prever o que vai acontecer, e tais acontecimentos realmente se
realizarem, ento a teoria pode estar certa. As dificuldades incluem determinar que
casos selecionar para testes e em que situaes, quantas predies fazer, que margem de
erro considerar aceitvel. Alm disto, h o problema de saber exatamente quais fatores
influenciam. Em muitos casos, os eventos previstos podem ocorrer mas por
coincidncia, influenciados por outros fatores (rudos). Nate Silver (2013) comenta
diversos casos assim, muitos deles ligados ao baseball nos Estados Unidos. Por
exemplo, ele recomenda no usar vitrias ou derrotas para avaliar um jogador, porque
tais ndices so afetados por outros desempenhos. Jogadores so responsveis por suas
estatsticas, mas tambm depende de quem est do outro lado jogando contra.

Apesar de invalidar um modelo, a descoberta de excees pode ser benfica porque gera
mais conhecimento sobre o contexto, podendo vir a aprimorar modelos existentes ou

20
gerar um novo modelo mais moderno e preciso. Kuhn (2011) discute os paradigmas
cientficos e conclui que a existncia de excees pressupe o surgimento de um novo
paradigma (leia-se, modelo).

Uma vez que s capturam parte da realidade, os modelos nunca so completos. Esta
falta de dados, entretanto, no impede o uso e os benefcios dos modelos. Se no puder
ajudar a prever eventos futuros com exatido, pelo menos nos daro tendncias (em
cima de probabilidades). E assim que as pessoas tomam decises. Nenhuma empresa
deixa de produzir um produto s porque as vendas caram durante os ltimos dias. Se
houver uma tendncia de retomada das vendas, ou seja, se houver uma certa
probabilidade (aceita por alguma razo) de que as vendas iro subir novamente, a
empresa segue no mesmo caminho.

Por outro lado, reduzir sistemas complexos a sistemas simples ou a um conjunto de


regras simples pode ser perigoso. Podemos estar fazendo suposies erradas, julgando
com critrios errados em cima de fatos no observados ou mal interpretados. E o
resultado pode ser desastroso, como na caa s bruxas e na ascenso de ditadores. Daqui
a pouco vamos estar categorizando e estereotipando todas as pessoas, como fazemos
com grupos musicais e criaes artsticas. O perigo do rtulo no conseguir sair dele.
Esta uma tendncia perigosa do ser humano: criar um modelo ou teoria e sair
procurando casos que confirmem a sua validade, tentando encaixar tudo no modelo. E
se algo no se encaixar ? Foraremos o encaixe ou mudaremos nosso modelo ?

Tem sido assim ao longo da Histria da Humanidade e da Cincia. Teorias surgem mas
aps anos elas podem ser refinadas ou mesmo refutadas, devido a novas descobertas,
novos fatos ou novas formas de interpretar os velhos fatos. No incio, o ser humano
achava que todos os planetas e o sol giravam ao redor da Terra. Depois, descobriu-se a
teoria heliocntrica. Agora j h um pesquisador dizendo que a Terra o centro do
Universo. E est sendo tachado de louco, como j foram classificados Kepler e Galileu.
Ento o que existe um modelo mais aceito pela maioria das pessoas (estudiosos,
cientistas, ou mesmo pessoas comuns). A Teoria de Newton, que fazia isto (apesar de
tantos acertos) caiu. A de Einstein, sucessora da de Newton, tambm possui lacunas. As
leis da macro Fsica no se ajustam aos comportamentos no mundo micro, os quais so
regidos por outras leis. Mas ambas so aceitas at que uma nova teoria consiga reunir e
acomodar casos de ambos os grupos, provavelmente a partir de novas regras.

2.4 Analisar passado para criar modelos

Analisar o histrico de dados geralmente a alternativa utilizada para montar um


modelo ou teoria. Se pudermos encontrar eventos que aconteceram repetidamente no
passado, possvel que se repitam no futuro. E assim teremos um padro ou modelo.

A primeira alternativa para encontrar causas, de problemas ou boas prticas, procurar


por algo que tambm aconteceu quando estes eventos ocorreram. Se vrias vezes uma
mquina quebrou, procuramos observar o que ocorreu junto com estas quebras. Se
tivermos todas as quebras registradas ou descritas, procuraremos por eventos comuns.
Se tivermos um grupo de campees num esporte, procuraremos saber o que eles fazem
ou fizeram de comum. Se sabemos quais so os produtos que mais vendem, queremos

21
saber que caractersticas so comuns a todos. Se quisermos diminuir gastos com peas
defeituosas, vamos procurar pelas causas mais frequentes. Se estamos precisando
diminuir desperdcios de energia, vamos olhar para os casos mais frequentes. A nossa
busca ento por repeties.

E a que entra a estatstica, nos permitindo separar repeties interessantes das que no
so significativas. Mas como os modelos no so perfeitos, precisam ser aperfeioados
ou corrigidos. Isto pode ser feito por retroalimentao, aprendendo por experincia, por
exemplo, com os erros cometidos e pela medio da incerteza (Stewart, 2000).

2.5 Modelos para prever futuro

Por que um computador ganha de humanos no jogo de xadrez ? Porque consegue reunir
conhecimento de vrios enxadristas (atravs da anlise de jogos anteriores) e porque
consegue realizar simulaes e previses de consequncias de jogadas possveis em
situaes atuais, ou seja, consegue avaliar o que vai acontecer caso uma determinada
pea seja movida para uma determinada casa. Mesmo que o computador no consiga
fazer todas as combinaes possveis, conforme teoria de Simon (1972), ainda sim
poder avaliar melhores jogadas do que um ser humano. Para tanto, os computadores
so programados com modelos heursticos e no algortmicos. E usando probabilidades,
conseguem avaliar qual a melhor alternativa. Pode ser ento que um modelo no
consiga prever o futuro com exatido, mas permitir avaliar quais eventos mais
provavelmente podero ocorrer.

Nate Silver (2013) comenta que o verbo "prever" em portugus possui duas verses em
ingls: predict e forecast. Ele comenta que hoje elas so usadas como sinnimas, mas na
poca de Shakespeare tinham significados diferentes: predict era aquilo que faziam os
adivinhos; forecast, por outro lado, implicava em planejar em condies de incerteza.
Os modelos discutidos neste livro pretendem fazer previses do segundo tipo, baseados
em dados. Seria como tentar predizer valores para atributos ou acontecimentos de
eventos a partir da anlise de causas (valores de outros atributos).

A previso com modelos j uma realidade nas mais diversas reas de conhecimento
humano. Gorr (1999) discute a perspectiva de analisar dados histricos para entender
estratgias e tentar prever concentraes de futuros crimes. Maltz e Klosak-Mullany
(2000) utilizaram a tcnica de sequncia de tempo (um tipo de Data Mining) para
encontrar padres estatsticos no comportamento de jovens delinquentes nos EUA e
antever eventos ruins em suas vidas, para intervir antes que aconteam. Bill Gates,
numa palestra recente, sugeriu utilizar tais tecnologias de predio na educao
(http://www.technologyreview.com.br/read_article.aspx?id=43501). A ideia seria
analisar dados sobre desempenho e comportamento de alunos, para entender por que um
aluno pode estar faltando s aulas, e com isto tomar aes para diminuir taxas de
abandono. Alm disto, podemos pensar em modelos que permitam entender causas de
desempenho de alunos, para evitar problemas de baixo rendimento ou replicar as boas
prticas dos melhores alunos.

Tendncias futuras tambm podem ser inferidas de aes ou comportamentos coletivos.


Estudos sobre Sabedoria das Massas ou Multides (Wisdom of Crowds) analisam o que

22
a maioria das pessoas est fazendo, e assim poder prever resultados ou entender o que
est acontecendo. Por exemplo, o Google Trends usado para monitorar epidemias nos
EUA. Quando h muitas pesquisas no Google, vindas de uma mesma regio, por
palavras-chave relacionadas a uma determinada doena, isto significa que o nmero de
casos desta doena est aumentando nesta regio. H um experimento do Google
(http://www.google.org/flutrends/br/#BR) para monitorar casos de gripe. O artigo de
Dugas et al. tambm trata do mesmo assunto.

A anlise de redes sociais virou uma maneira fcil de observar as multides. Um artigo
de 2011 (Bollen et al.), conseguiu provar a correlao entre o tipo de humor nas
postagens do twitter e o ndice Dow Jones da bolsa de valores americana. Outros artigos
provaram ser possvel prever receitas de filmes, aumento no nmero de turismo e
mesmo prever eventos futuros analisando postagens ou buscas (Asur et al. 2010;
Mishne, 2006; Radinsky & Horvitz, 2013; Choi & Varian, 2012). Spink e colegas
(2001) analisam o comportamento de multides em mecanismos de busca para realizar
diversas inferncias.

Sargut e McGrath (2011) sugerem a gestores estabelecer um modelo que agregue trs
tipos de informao preditiva:
informaes passadas: dados sobre o que j aconteceu, incluindo indicadores
financeiros e de desempenho;
informaes presentes: alternativas de caminhos, aes, estratgias, oportunidades
ou decises que podem ser tomados;
informaes futuras: o que pode acontecer como consequncia das alternativas,
incluindo respostas do meio-ambiente ou mudanas internas.

O modelo deve integrar estes 3 tipos de informaes. Geralmente, so usados modelos


matemticos, ou seja, preciso reduzir as informaes para valores quantitativos
(nominais, categricos ou numricos) e a forma de interligao entre as variveis so
frmulas matemticas.

O fato que as novas tcnicas esto permitindo predizer com maior preciso alguns
valores e ainda verificar a interligao entre eventos ou variveis. Desta forma,
possvel saber se uma determinada ao vai impactar positivamente ou negativamente
em algum contexto futuro. E quanto ir impactar. Por exemplo, se aumentarmos a
exposio do produto em X dias na mdia convencional, quanto teremos de aumento de
vendas e, com base nos custos desta estratgia, o quanto teremos de retorno financeiro
(ou lucro).

Se tivssemos como prever o futuro, poderamos evitar problemas futuros (como no


filme Minority Report, dirigido por Steven Spielberg e estrelado por Tom Cruise). Ou
poderamos indicar melhores alternativas ou mesmo saber se uma certa alternativa daria
certo ou no. Mas isto no existe. Nenhuma deciso certa. Ningum tem como saber
se uma escolha vai funcionar ou no.

Mas nem por isto (porque vivemos na incerteza) vamos tomar decises sem critrios.
Justamente, as tcnicas, os padres, os dados, nos ajudam a diminuir a incerteza e com
isto melhorar nossas decises e consequentemente seus resultados. H alguns autores
que so contra as tcnicas de planejamento, porque acreditam que no vale a pena
planejar, pois o futuro nunca acontece como planejado. Entretanto, se no planejamos,

23
se no tomamos decises e aes, temos grandes chances de chegar onde estamos agora
ou pior, chegar em algum lugar que no queremos.

claro que os planos e caminhos, e digamos os modelos e padres, no contexto deste


livro, devem ser ajustados com retroalimentao durante a jornada. Mas uma viagem
sem planos tem mais probabilidade de dar errado ou chegar num destino no desejado.
O modelo utilizado por Maltz e Klosak-Mullany (2000) para prever comportamento de
jovens delinquentes justamente permite que aes sejam tomadas para modificar um
futuro muito provvel e ruim na vida daqueles jovens. Resumindo os modelos permitem
entender o passado e o presente, para que tomemos melhores decises para um futuro
melhor.

2.6 Anlise de Correlao e Causa-Efeito

Como j dissemos antes, e vamos estressar muito neste livro, BI um processo que
busca encontrar causas (para problemas ou para bons resultados). Portanto, BI um
processo de investigao e descoberta, com algumas semelhanas com o processo
criativo, como discutiremos mais adiante.

Pessoas e empresas querem tomar melhores decises, para alcanar melhores resultados
ou poder direcionar seu futuro. Entender quais condies geram quais resultados uma
das formas de fazer este tipo de planejamento. Entretanto, como discutiremos neste
livro, encontrar causas no to simples quanto parece. Traremos estudos de reas tais
como investigao criminal, diagnstico mdico, previso do tempo, ecologia, biologia,
mecnica, fsica, engenharia, cincias sociais, economia, poltica, etc.

BI anlise de dados. E isto ocorre em diversas disciplinas, no sendo restrito ao meio


computacional ou empresarial. O problema comum a diversas reas e talvez analogias
possam ser utilizadas, para aplicarmos solues que j deram bons resultados, mesmo
que em outras reas. Vrias cincias ou reas esto sempre procura de modelos que
possam explicar fenmenos e que possam ajudar as pessoas a preverem acontecimentos.

Ento, BI tambm inclui como objetivo descobrir as relaes causais, mesmo que estas
envolvam diversas variveis e diversos tipos de relaes, inclusive indiretas em vrios
nveis. Para uma empresa importante avaliar a correlao entre suas aes e os
resultados. Por exemplo, uma empresa descobriu que um aumento de 5 pontos na
atitude comportamental dos empregados implicava em 1,3 ponto de incremento na
satisfao dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa. Tal
descoberta permite empresa avaliar onde investir e o quanto. Neste exemplo, se ela
quiser aumentar 1% das vendas talvez tenha que aumentar 10 pontos na atitude dos
colaboradores.

24
2.7 Dificuldades para identificar padres - pessoas e sistemas
complexos

O problema de prever eventos futuros que o futuro feito COM pessoas. A maioria
dos modelos incluem pessoas. Se precisamos saber a causa por que mquinas quebram,
temos que lembrar que elas so operadas por pessoas, pessoas fazem sua manuteno,
pessoas as programam. Se quisermos prever ndices de vendas, temos que lembrar que
so as pessoas que compram produtos e servios, e h tambm vendedores, promotores,
publicitrios, especialistas em moda e por fim administradores determinando preos.

Apesar de todos os autmatos embutidos em sistemas computacionais, das regras e


procedimentos de qualidade, das interfaces planejadas para guiar o usurio, ainda sim as
pessoas agem de forma no planejada, no prevista. E o "ser humano um ser racional
e irracional, capaz de medida e desmedida; sujeito de afetividade intensa e instvel"
(Morin, 2000, p.60)

No temos como prever o que as pessoas faro em qualquer situao. Os genes


condicionam vrios comportamentos dos seres humanos (Winston, 2006; Dawkins,
2007) e muitas vezes agimos por instintos bastante primitivos, enraizados em ns nos
tempos das savanas (Winston, 2006). Mas as pessoas tambm so condicionadas ou
influenciadas pelo meio que as cerca, podem receber treinamento para fazerem algo
dentro de certos procedimentos e h ainda as vrias possibilidades do erro humano. E
por fim, ainda h o livre arbtrio: os genes nos moldam como roteiristas de filmes mas o
resultado final ns que decidimos, porque os genes nos do modelos de deciso e no
a deciso final (Winston, 2006; Dawkins, 2007).

Nate Silver (2013) conta o caso dos modelos utilizados pelos cientistas polticos
prevendo a vitria esmagadora de Al Gore na eleio presidencial de 2000 nos Estados
Unidos. Mas quem ganhou as eleies foi George W. Bush, e um dos motivos foi a
cdula de votao, com marcadores mal associados aos nomes, confundindo eleitores
que iriam votar em Al Gore.

A raiz do problema est em que estamos tratando com sistemas complexos. Sistemas
complicados so aqueles compostos por muitas partes, mas para os quais podemos
prever o resultado final, se cada parte funcionar de forma planejada. Se conhecermos os
dados de entrada, as condies ambientes e o sistema funcionar segundo o padro
conhecido, ou seja, um contexto estvel, certo que saberemos o resultado final (Sargu
and McGrath, 2011). Um exemplo de sistema complicado um carro: um mecnico
conhece as partes, suas interaes e consegue prever o funcionamento. Se algum
problema ocorrer, ele poder determinar a causa usando seus conhecimentos e coletando
alguns dados diagnsticos.

Por outro lado, sistemas complexos podem at ter poucas partes mas as interaes entre
as partes podem causar funes ou resultados imprevisveis. As partes interagem de
forma inesperada e por isto seu comportamento passado no pode ser usado para
antecipar eventos futuros com acurcia (Sargu and McGrath, 2011). Sistemas
complexos contm interaes dinmicas e portanto as mesmas condies de entrada
podem levar a resultados diferentes em tempos diferentes. H 3 caractersticas que

25
determinam um sistema complexo: multiplicidade (relativa ao nmero de elementos ou
partes do sistema), interdependncia (o nvel de conexes entre as partes) e a
diversidade (heterogeneidade dos elementos). Conforme Sagu e McGrath, quanto maior
o nvel de cada caracterstica, mais complexo ser o sistema. Um exemplo de sistema
complexo foi a campanha (ou guerra) contra pardais na China em 1958. Os pardais
estavam atacando as plantaes de arroz e ento o Governo chins fez uma campanha
para dizimar os pardais. O problema que, aps a eliminao dos pardais, os gafanhotos
que comearam a comer gros de arroz, porque os pardais eram predadores naturais
dos gafanhotos.

As loucuras que acontecem nos mercados econmicos e nas bolsas de valores tambm
so resultados dos comportamentos complexos das multides. Muitas vezes no h uma
explicao lgica para a correria de venda ou compra nos mercados. Simples boatos
podem se difundir rapidamente e levantar medo na populao, gerando comportamentos
ilgicos de indivduos e levando as massas para direes inesperadas.

Entender o comportamento de multides um desafio. Conforme a teoria de Herbert


Simon (1972), o ser humano toma decises sob uma Racionalidade Limitada
informao disponvel, capacidade cognitiva das mentes e ao tempo disponvel. Na
maioria das vezes no vale a pena (pelo custo ou tempo) coletar todas as informaes
necessrias para tomar uma deciso. Por exemplo, se uma pessoa quiser comprar um
sapato, pensar em verificar na cidade qual a loja com o preo mais barato. Entretanto,
se for avaliar o preo de cada loja, ao terminar o processo, ter levado tanto tempo que
os primeiros preos consultados j podero ter sido alterados e o custo total de
deslocamentos e perda de tempo no valer o desconto que conseguir. impossvel que
o indivduo conhea todas as alternativas para uma deciso e que possa avaliar todas as
suas consequncias. A tendncia do ser humano simplificar as escolhas. Isto quer
dizer que no temos como saber se a deciso tomada foi a mais acertada antes de tom-
la; somente aps saberemos se deu certo ou no. E mesmo tendo alcanado xito, talvez
no tenhamos certeza se foi a melhor alternativa.

Em geral ento, as pessoas procuram diminuir a incerteza das decises mas assumem
certos riscos pela racionalidade limitada. Por exemplo, se algum quiser traar uma rota
de fuga em caso de incndio num prdio, talvez no consiga avaliar todas as alternativas
possveis (local de incio do fogo, quantidade de pessoas, etc.). E no momento da
situao de incndio, o ser humano tem que simplificar ao mximo seu processo de
deciso para acelerar as aes. Isto quer dizer que os planos iniciais podem ter sido
esquecidos ou tero que ser simplificados. E assim, as atitudes planejadas mudam pela
racionalidade limitada. E o ser humano se torna imprevisvel. Tversky e Kahneman
(1974, 1983) discutem o problema de avaliaes probabilsticas erradas em decises
humanas. Eles apresentam diversos experimentos que comprovam que o ser humano
avalia de forma errada muitas situaes, usando modelos probabilsticos errados ou
incompletos.

Alm disto, a ao de uma pessoa acaba por influenciar a deciso dos que esto
prximos. Isto pode modificar o comportamento dos outros, que podem imitar ou fazer
algo bem diferente. Por vezes, algumas decises de pessoas pensando no benefcio
prprio e nico podem prejudicar ainda mais o sistema. H o famoso caso do paradoxo
de Braess, que diz que criar atalhos em redes rodovirias pode no diminuir o tempo
mdio, porque a maioria das pessoas ir escolher o atalho, gerando novos

26
engarrafamentos. Tomar decises de forma independente, talvez no seja a melhor
alternativa, conforme a teoria do Equilbrio de John Nash. Talvez a melhor alternativa
para todos seja cada um perder um pouco de algo para todos ganharem.

As tcnicas relativas Teoria dos Jogos ajudam a entender os resultados nestes tipos de
sistemas complexos. A Teoria dos Jogos uma tentativa de tentar prever resultados em
sistemas complexos. Atravs da anlise da combinao de diferentes estratgias dos
jogadores (componentes do sistema que possuem poder de deciso), pode-se prever os
resultados possveis. A dificuldade est em prever as decises que sero tomadas.

Apesar das dificuldades, das incertezas, mesmo assim precisamos procurar padres para
entender a complexidade dos sistemas. Isto nos ajudar em situaes futuras, mesmo
que no nos permitindo chegar a previses exatas. Ghani e Simmons (2004), por
exemplo, conseguiram prever com 96% de acerto, o preo final em leiles no eBay, um
tipo de situao bastante complexa, envolvendo diversas variveis e alm disto
intuies, sentimentos, percepes e escolhas humanas.

27
3 Processo Geral de BI
BI tem a ver com descobrir conhecimento, para poder gerar inteligncia e resolver
problemas, como discutido no captulo anterior. O objetivo final ento poder gerar
conhecimento novo e til.

Vrios autores descrevem o processo geral de descoberta de conhecimento


conhecimento como o
descrito na Figura 2. A entrada do processo um banco de dados e a sada um conjunto
de conhecimentos. A etapa principal a de Minerao ou Anlise
Anlise dos Dados (Data
Mining). A anlise nunca feita sobre todos os dados e sim sobre amostras. Para tanto,
necessrio ter antes uma etapa de preparao dos dados, a partir da base de entrada.
Nesta etapa, os dados sero tratados (limpeza, integrao, deduplicidade)
deduplicidade) e amostras
diferentes sero geradas, como ser discutido adiante.

Figura 2: Processo Geral de Descoberta de Conhecimento

A etapa de anlise tem como entrada uma amostra dos dados e gera como sada padres
estatsticos. Mas estes padres no so conhecimento. Eles precisam ser interpretados
dentro do contexto da organizao ou do domnio, para a sim se tornarem
conhecimento. Por exemplo, uma anlise de pacientes com diabetes descobriu que 95%
dos pacientes com diabetes do tipo 1 recebiam o medicamento X. Isto, para um mdico
especialista da rea, no novidade nenhuma, pois o tratamento usual dado a
pacientes deste tipo. O conhecimento interessante e novo est nas excees, nos 5% que
tem o mesmo tipo de diabetes mas no recebe o mesmo medicamento. Pode ser que
tenham alguma outra caracterstica que os impede de tomar tal medicao.

O processo de descoberta de conhecimento iterativo e interativo. Iterativo (ou cclico)


porque precisa ser feito vrias vezes
vezes,, com diferentes amostras ou at mesmo com
diferentes tcnicas e ferramentas. Os padres estatsticos so, na maioria das vezes,
hipteses de causas, devendo ser melhor avaliados. Isto muito em razo da Teoria do
Mundo Fechado, que ser discutida mais adiante. O processo tambm interativo,
porque precisa interveno humana.
humana. Para realizar a preparao dos dados e depois a
interpretao dos resultados, pessoas com conhecimento
conhecimento sobre o domnio precisam
28
colocar seu intelecto a servio da descoberta de conhecimento. Ainda no conseguimos
colocar este tipo de conhecimento ou inteligncia em mquinas.

3.1 Premissas do Processo de BI

Para que o processo de BI tenha um resultado satisfatrio e de qualidade, algumas


premissas devem ser observadas.

Objetivo do BI
Como trataremos mais adiante neste livro, o processo de BI pode ser feito de forma
reativa ou proativa. Mas em ambos os casos h um objetivo. No primeiro tipo (BI
reativo), o objetivo bem definido e busca identificar ou monitorar indicadores
quantitativos. J no segundo caso, o objetivo mais vago e tem mais a ver com uma
explorao (estamos procurando algo mas no sabemos bem o que , nem se vamos
encontrar). Este "algo" que se procura no modo proativo pode ser simplesmente "algo
novo", sem definio, forma ou qualidades.

Coletar as informaes certas


Coletar os dados que realmente influenciam os objetivos crucial para que o processo
de BI atinjas os objetivos. Quanto mais informaes, menos incertezas. Entretanto, s
quantidade no suficiente. Precisamos tambm de dados com qualidade.
Falaremos da etapa de coleta num captulo s sobre isto e sobre qualificao de dados
quando tratarmos de ETL.

Formato certo das informaes


Depois de coletados os dados, importante coloc-los no formato adequado para
anlise. Dados numricos so mais fceis de serem analisados estatisticamente. Mas
tambm podemos tratar informaes no-estruturadas com tcnicas como text mining.
Se vamos predizer o total de espectadores de um filme e s temos informaes
qualitativas como diretor, estdio, atores, produtores, gnero, resumo da histria, local
de gravao, etc., seria interessante primeiro transformar tais informaes para um
formato que permita aplicar tcnicas de anlise quantitativa para podermos relacionar
tais informaes com um dado estruturado e numrico como o total de espectadores ou
valores monetrios arrecadados.

Qualidade das informaes


Como os americanos falam "garbage in, garbage out". Ou seja, se o processo for feito
com dados sem qualidade, o resultado ser compatvel, isto , tambm sem qualidade.
Em alguns pontos deste livro discutiremos tcnicas para tratamento de dados e para
enriquecimento. Mas h tantas outras tcnicas para avaliao da qualidade de dados que
fogem ao escopo deste livro.

Organizar as informaes
Como discutiremos neste livro, a separao dos dados em amostras um passo
importante para o processo de BI. Isto permite analisar os resultados e interpret-los
luz da amostra. Se estamos analisando dados histricos dos 2 ltimos anos, os
resultados se referem a esta amostra. Se formos utilizar os padres encontrados neste

29
histrico para nos preparar para o futuro (ou tentar prever o futuro), poderemos ter
surpresas bem desagradveis.
Alm disto, a separao em amostrar permite comparar os padres encontrados nas
amostras. Separando dados por dias da semana, talvez possamos descobrir um padro
diferente para cada dia da semana.

Tcnicas e mtodos de anlise


Utilizar a tcnica correta fundamental. Por isto, discutiremos neste livro vrias
tcnicas de anlise e alguns cuidados na interpretao dos resultados.

Recuperao e disseminao do conhecimento


O processo de BI s se completa quando o conhecimento descoberto chega at as
pessoas que precisam dele, no formato correto e no tempo exato. Se o processo demorar
demais, se o resultado chegar num formato no adequado, o processo de deciso (razo
da existncia das informaes) ser comprometido.

3.2 Quem deve participar do Processo de BI

Hoje h um cargo conhecido como Analista de BI. Este conhece principalmente as


ferramentas de software utilizadas para a anlise dos dados e apresentao dos
resultados em dashboards.

Entretanto, deve haver um Analista de Negcios, que possa interpretar os resultados no


contexto da organizao. Este tambm dever propor objetivos para o BI, como por
exemplo a anlise de certos indicadores de desempenho (KPIs), pois far a ponte entre
os problemas e objetivos da organizao e as tcnicas e ferramentas de BI e TI. O
Analista de Negcios tambm dever auxiliar na preparao dos dados, indicando que
tipo de amostrar poder ser utilizada e que atributos ou valores so mais importantes
para serem analisados. Na falta de um profissional deste cargo, o Analista de BI dever
assumir tal responsabilidade, e portanto dever procurar conhecer a organizao, seus
problemas e objetivos. E a participao de gestores, administradores, executivos ou
tomadores de deciso tambm importante, pois so os clientes das informaes a
serem geradas pelo BI.

Por fim, seria interessante contar com um cientista social ou estatstico, que pudesse
ajudar na gerao de amostras e na seleo das tcnicas estatsticas a serem utilizadas.

3.3 Processo de BI Pr-ativo X Reativo: comear com ou sem hipteses

De acordo com Choudhury e Sampler (1997), existem dois modos para aquisio de
informao: o modo reativo e o modo proativo. No primeiro caso, a informao
adquirida para resolver um problema especfico do usurio (uma necessidade resultante
de um estado anmalo de conhecimento). Nestes casos, o usurio sabe o que quer e
poder identificar a soluo para o problema quando h encontrar.

30
Por outro lado, no modo proativo, o propsito de adquirir informao exploratrio,
para detectar problemas potenciais ou oportunidades. Neste segundo caso, o usurio no
tem um objetivo especfico.

Oard e Marchionini (1996) classificam as necessidades de informao em estveis ou


dinmicas e em especficas ou abrangentes (gerais). Taylor, citado por Oard e
Marchionini (1996), define 4 tipos de necessidades, os quais formam uma escala
crescente para a soluo do problema:
necessidades viscerais: quando existe uma necessidade ou interesse, mas esta
no percebida de forma consciente;
necessidades conscientes: quando o usurio percebe sua necessidade e sabe do
que precisa;
necessidades formalizadas: quando o usurio expressa sua necessidade de
alguma forma;
necessidades comprometidas: quando a necessidade representada no sistema.

As necessidades tratadas pela abordagem de descoberta reativa poderiam ser


classificadas como estveis e especficas, segundo a classificao de Oard e
Marchioninni, e como conscientes (no mnimo), segundo Taylor. Isto porque o usurio
sabe o que quer, mesmo que no consiga formalizar.
Exemplos de objetivos que caracterizam um processo reativo so:
encontrar caractersticas comuns nos produtos mais vendidos;
encontrar motivos que levam evaso ou a reclamaes de clientes;
achar perfis de grupos de clientes;
encontrar clientes potenciais para propaganda seletiva;
encontrar concorrentes no mercado.

No modo reativo, o usurio tem uma ideia, mesmo que vaga, do que pode ser a soluo
ou, pelo menos, de onde se pode encontr-la. Pode-se dizer ento que o usurio possui
algumas hipteses iniciais, que ajudaro a direcionar o processo de descoberta. Neste
caso, necessrio algum tipo de pr-processamento, por exemplo para selecionar
atributos (colunas em uma tabela) ou valores de atributos (clulas). Isto exige entender o
interesse ou objetivo do usurio para limitar o espao de busca (na entrada) ou filtrar os
resultados (na sada). o caso tpico de quando se deseja encontrar uma informao
especfica, por exemplo, um valor para um atributo ou um processo (conjunto de
passos) para resolver um problema.

J as necessidades da abordagem proativa poderiam ser classificadas como dinmicas e


abrangentes, segundo a classificao de Oard e Marchioninni. So dinmicas porque
podem mudar durante o processo, j que o objetivo no est bem claro, e so
abrangentes porque o usurio no sabe exatamente o que est procurando. Pela
taxonomia de Taylor, as necessidades do modo proativo so viscerais. Isto quer dizer
que h uma necessidade ou objetivo, mas o usurio no consegue definir o que precisa
para resolver o problema. A necessidade tpica do modo proativo poderia ser
representada pela expresso: diga-me o que h de interessante nesta coleo de
dados. Neste caso, o usurio no tem de forma definida o que lhe seja de interesse (o
que precisa), podendo tal interesse mudar durante o processo. Pode-se dizer que um
processo exploratrio, sendo, em geral, iterativo (com retroalimentao) e interativo
(com ativa participao e interveno do usurio).

31
Na abordagem proativa, no h hipteses iniciais ou elas so muito vagas. O usurio
dever descobrir hipteses para a soluo do seu problema e explor-las, investig-las e
test-las durante o processo. Em geral, acontece porque o usurio no sabe exatamente o
que est procurando. o caso tpico de quando se quer monitorar alguma situao ou
encontrar algo de interessante que possa levar a investigaes posteriores. Depois que
hipteses so levantadas, o processo pode seguir como no paradigma reativo, talvez
sendo necessrio avaliar as hipteses, para verificar se so verdadeiras ou no.

Pode-se dizer que a abordagem proativa mais difcil de ser conduzida e at mesmo
pode no levar a descobertas interessantes. A princpio, deve-se sempre procurar iniciar
com indicadores bem definidos, ou seja, usando uma abordagem reativa. A pr-
atividade til quando os indicadores j foram esgotados ou quando se quer descobrir
algo realmente novo e inesperado. Muitas empresas utilizam abordagens para Gesto da
Inovao baseadas em descobertas por acidente ou acaso (o que os americanos chamam
de serendipity), e este "pulo do gato" pode fazer a grande diferena em mercados
competitivos. Mas isto papo para outro captulo.

32
4 Pr-processamento e Preparao de dados
Esta etapa tambm conhecida pelo termo ETL (extrao, transformao e carga/load)
ou cleansing (limpeza).
O objetivo melhorar a qualidade dos dados e gerar uma base separada para anlise
(um data warehouse) para no sobrecarregar as bases usadas pelos sistemas
transacionais.
A limpeza serve para eliminar inconsistncias da base, completar dados, tratar valores
nulos, eliminar registros duplicados, etc. (por exemplo, uma pessoa com dois telefones
diferentes ou com um endereo incompleto ou faltando).

O Data Mining na verdade veio de processos de correo de integridade em bases de


dados. Por exemplo, num hospital, os procedimentos de cesariana s podem ser feitos
em pacientes do sexo feminino. Ento, eram criadas regras de integridade e um software
automaticamente verificava a probabilidade da regra. Neste caso, 100% dos
procedimentos de cesariana deveriam ter sido feitos em mulheres. Se o resultado no
fosse 100%, algum registro estava inconsistente.

A grande ideia foi construir um software que identificasse regras automaticamente (sem
que operadores humanos precisam definir as regras) e avaliasse a probabilidade.
Quando os criadores viram que regras novas e interessantes eram descobertas, a nasceu
a Minerao de Dados como conhecida hoje.

A seguir sero discutidas algumas tcnicas desta etapa.

4.1 Tratamento de valores nulos

O que fazer se acontecer de pegarmos para analisar uma base de dados onde 50% dos
registros no possuem dados para um determinado atributo (por exemplo, campo sexo).
Isto pode gerar resultados no confiveis. Por exemplo, se uma anlise estatstica gerar
um padro dizendo que 80% dos registros possuem valor "masculino" para este campo.
Como no sabemos o que acontece com os outros 50% dos registros, possvel que
todos eles sejam do mesmo sexo e com isto a regra descoberta estaria completamente
distante da realidade.

Uma possibilidade desconsiderar os valores nulos e interpretar os padres descobertos


dentro deste contexto, como uma tendncia. Se os registros com valores nulos so
apenas 10% do total, a margem de erro nas regras descobertas ser tambm de 10%.

Outra possibilidade gerar dados por aproximao. Por exemplo, na minerao de uma
base com dados climticos da regio sul do estado do Rio Grande do Sul, havia muitos
dados faltantes. O que se fez foi completar os dados faltantes com os dados de estaes
prximas, uma vez que a variao dos valores de uma estao de coleta para outra no
muito grande.

33
A mdia e a interpolao tambm podem ser utilizadas, mas isto pode gerar distores
drsticas nos resultados se os valores faltantes justamente destoavam da maioria (eram
outliers). Se o conjunto de registros compunha uma minoria, os resultados finais tero
um desvio muito pequeno.

Outra possibilidade utilizar regras de classificao coletadas fora da empresa. Por


exemplo, se no tivermos a renda de um cliente, podemos usar dados estatsticos sobre a
renda da cidade onde ele mora. Se no tivermos o estado civil, podemos supor se ele
casado ou solteiro analisando outros dados referentes a esta pessoa.

4.2 Deduplicidade de registros

A eliminao de registros duplicados evita contar duas vezes uma entidade. Alm disto,
pode resolver problemas com dados conflitantes (ex.: cliente com dois endereos). H
tcnicas que avaliam probabilidades para saber qual o valor mais correto.

A identificao de registros duplicados pode ficar mais fcil se houver uma


identificao nica. Hoje em dia, no s CPF e RG so usados como identificadores,
mas tambm endereos, nmeros de celular, e-mail e logins em redes sociais.

Entretanto, h muitos casos em que isto no feito por alguma razo histrica (mal
planejamento, por exemplo) ou quando duas bases so unidas por aquisio de empresas
diferentes. Imagine o caso em que o identificador utilizado o nome de uma pessoa.
muito provvel que o nome de uma mesma pessoa seja escrito de formas diferentes em
oportunidades diferentes. Um operador humano pode registrar o nome completo, outro
pode abreviar algum nome intermedirio ou mesmo o dono do nome pode no querer
dizer todos os seus sobrenomes. O uso de atributos complementares pode ajudar a
encontrar registros duplicados desta pessoa. Tambm pode-se utilizar tcnicas de
avaliao de similaridade entre vetores, como a medida de similaridade de Pearson
usada em sistemas de Raciocnio Baseado em Casos (RBC ou CBR).

4.3 Integrao de bases (merge)

O melhor seria ter padronizao de todos os campos. Se isto no for possvel, devemos
usar tcnicas como as discutidas anteriormente para deduplicar registros.

Em muitos casos, imprescindvel integrar duas ou mais bases, como no caso de uma
empresa que adquire outra e quer unificar as duas bases. Em outros casos, a integrao
pode ser feita para gerar enriquecimento dos dados. Por exemplo, integrar a base de
dados de uma loja fsica com a base de uma loja na Internet.

A integrao de bases pode ser feita tambm para aumentar a possibilidade de


identificao de padres estatsticos. Por exemplo, minerar vendas juntando o cadastro
de produtos e o cadastro de clientes pode permitir identificar associaes entre bairro do
cliente e tipo de embalagem do produto.

Se temos uma base de pedidos de clientes residentes em cidades diferentes, podemos


adicionar dados referentes s cidades. Por exemplo, o tamanho da cidade, o tipo de
atividade econmica principal, se de montanha ou praia, a idade da cidade, o partido
34
do prefeito, etc. Isto pode ajudar a encontrar padres como por exemplo o tipo de
produto mais comprado para cada perfil de cidade. Podemos hipoteticamente descobrir
que clientes de cidades grandes compram em maior quantidade ou que cidades
litorneas no fazem pedidos nas sextas-feiras. At mesmo a renda mdia da cidade
pode ser usada para completar a renda dos clientes, em caso de valores nulos.

Se formos analisar pacientes de um hospital, talvez seja interessante acrescentar


informaes sobre o ambiente familiar e profissional de cada paciente, seus hbitos
alimentares e cotidianos, e at mesmo a histria pregressa de doenas suas e de seus
familiares.

Para aumentar as chances de haver padres estatsticos, pode-se gerar novos campos a
partir dos existentes. Por exemplo, um hospital possui dados de baixa e alta de pacientes
que foram internados. Mas o dado mais importante para este hospital o nmero de dias
que o paciente ficou internado (tempo de permanncia). Uma simples subtrao entre
datas.

claro que isto aumenta o volume de dados, mas certamente tambm aumenta a
probabilidade de encontramos padres. Em geral, utilizada uma tabela no
normalizada para agilizar as anlises, uma vez que no preciso passar de uma tabela
para outra atravs de chaves estrangeiras (cdigos que relacionam registros).

4.4 Enriquecimento de dados

O enriquecimento de dados compreende acrescentar dados base existente. Por


exemplo, se tivermos dados cadastrais de clientes, podemos incorporar dados externos
da empresa, por exemplo vindos de outras empresas parceiras ou mesmo de
comportamentos capturados fora da empresa.

A vantagem do enriquecimento ter mais dados para anlise estatstica, aumentando as


chances de encontramos padres. Por exemplo: uma base de vendas contm dados como
data da venda, nmero de nota fiscal, os itens adquiridos, valor total pago. Se
incorporarmos dados dos clientes (cidade, idade, sexo) e dados dos produtos (preo,
categoria, tamanho), h mais chances de haver repeties. Alm disto, pela tcnica de
associao, poderemos cruzar dados de produto com dados de clientes e, por exemplo,
encontrar padres entre faixa etria e faixa de preo (ex.: jovens tendem a adquirir
produtos de menor valor).

Outro exemplo de enriquecimento: cada click de uma pessoa num site monitorado. A
estes dados so cruzados com o que a pessoa comprou pela internet. E depois estes
dados so cruzados com dados dos cadastros de lojas fsicas. E ento a estes dados so
somados dados sobre as compras que esta pessoas fez na loja fsica, fora da Internet. E
tudo isto complementado com dados vindos dos perfis da pessoa nas redes sociais e
com o que a pessoa diz em fruns e blogs ( o Social CRM).
E possvel pegar dados pblicos, disponveis livremente na Internet. Estes dados no
identificam pessoas individualmente, mas do estatsticas sobre grupos de pessoas. Uma
empresa pode comprar uma lista telefnica com nome, endereo e telefone de clientes.
Mas no sabe classificar os clientes por dados scio-demogrficos. Ento, a empresa
pode consultar bases pblicas sobre setores censitrios. Um setor censitrio diferente

35
de um bairro ou quadra; uma regio, geralmente menor que um bairro mas podendo
abranger partes de 2 bairros, que foi pesquisada pelo censo do IBGE. Ento, h
informaes estatsticas sobre cada setor especfico. Imagine que a empresa ento
possui os seguintes dados sobre uma pessoa: o nome Jos da Silva e mora na Rua X,
n.41. Bom, usando um sistema de GIS simples, pode-se saber o setor censitrio onde ela
mora. Depois, procuram-se dados estatsticos sobre este setor e, digamos, temos que
neste setor:
100% das residncias possuem 3 TVs;
98% possuem 2 banheiros;
90% possuem aparelhos de DVD;
90% possuem TVs LCD;
etc.
Agora, de posse destas informaes estatsticas, podemos estimar alguns dados sobre
Jos da Silva. Que ele tem 3 TVs, com 100% de chances, que h 98% de chances de ele
ter 2 banheiros em casa, e assim por diante.
Ento, desta forma, uma empresa combina a lista telefnica com dados censitrios e
poder obter um banco de dados de clientes potenciais.
Empresas parceiras tambm costumam compartilhar dados sobre clientes, por exemplo,
administradoras de cartes de crdito, instituies financeiras, redes de varejo, escolas,
postos de gasolina, editoras, etc. E h empresas que vendem este tipo de informao
(cadastros).

E a cada pesquisa que participamos, com o objetivo de concorrer a prmios, estamos


fornecendo mais dados sobre ns.

Mas no precisa ser s enriquecimento de dados sobre pessoas. Se tivermos o campo


cidade em alguma base de dados, podemos incorporar dados sobre as cidades, tais como
nmero de habitantes, geografia, economia principal, nvel de escolaridade, renda per
capita, ndices scio-culturais como IDH e outros.
Neste caso, pode-se cruzar a cidade do cliente com dados dos produtos adquiridos. Isto
nos permitir, por exemplo, descobrir que tipo de cidade compra mais um certo tipo de
produto. Num caso real, uma empresa de comrcio eletrnico descobriu que somente
clientes de cidades pequenas (com menos de 50 mil habitantes) compravam produtos
eletrnicos mais caros (depois descobriu-se que a razo era porque naquelas cidades no
havia lojas fsicas vendendo tais produtos; enquanto que em cidades maiores, o preo do
produto estava muito alto em relao a um concorrente com loja fsica).

4.5 Seleo de Amostras

muito difcil minerar ou analisar todos os dados de uma base. Em geral, preciso
fazer uma seleo inicial. Isto porque alguns dados, mesmo presentes por direito na
base, talvez no sirvam os propsitos. Por exemplo, produtos que no so mais
vendidos e no interferem mais no processo, e por consequente no so interessantes
para serem analisados, devem ser excludos.

O primeiro passo ento num processo de BI selecionar um conjunto de dados (uma


amostra) sobre os quais sero aplicadas as tcnicas de anlise ou minerao.

36
A seguir, so discutidas algumas tcnicas para gerao de amostras.

4.5.1 Tipos de amostras

Existem 4 tipos de tcnicas de seleo de amostras. Discutiremos elas atravs de um


exemplo: uma loja querendo analisar a satisfao de seus clientes. Tambm
discutiremos duas situaes possveis: a loja j ter um cadastro de clientes e o caso de a
loja no conhecer seus clientes (porque entram e saem da loja sem mesmo a loja saber
se so homens ou mulheres).

Amostras aleatrias
Neste caso, so selecionados aleatoriamente elementos do universo (conjunto todo). Por
exemplo, a loja determina o tamanho da amostra (valor N) e a seleo feita pegando-
se os N primeiros clientes da base de dados (do cadastro) ou so selecionados N
elementos dentro do cadastro, pulando de forma aleatria. Se a loja no tiver um
cadastro, ela ir selecionar clientes que saiam da loja com sacolas (produtos
comprados), "atacando" N clientes pulando alguns (a critrio da pessoa que far a
abordagem).
Este tipo de amostra pode trazer problemas, pois imagine que os N selecionados so
todos do mesmo tipo (homens X mulheres, classe A ou classe C, etc). E pior ainda se
forem selecionadas justamente as excees.
Alguns pesquisadores julgam a tcnica eficiente pois acreditam na distribuio aleatria
(aquela velha histria da moedinha, se jogarmos uma moeda 1000 vezes e s
analisarmos os 100 primeiros resultados, a distribuio ser a mesma).
Entretanto, para que a tcnica seja utilizada adequadamente, a aleatoriedade deve ser
total. No caso de clientes saindo da loja, no se pode selecionar clientes apenas num dia.
Deve-se levar em conta as variedades (dia da semana, dia do ms, ms, turno, etc).
Esta tcnica s deve ser usada quando no se pode utilizar uma tcnica melhor.

Amostras por convenincia


Neste caso, a seleo feita pelo que for mais fcil. Por exemplo, a loja seleciona os N
primeiros clientes que sarem da loja num determinado dia ou liga para N clientes
cadastrados que tiverem telefone e s utiliza dados dos N primeiros que atenderem o
telefone.
a pior tcnica pois no h critrio algum, nem mesmo a aleatoriedade, o que pode
levar a tendncias (selecionar somente elementos de um tipo).
Esta tcnica s deve ser usada quando no se pode utilizar uma tcnica melhor.

Amostras por julgamento


As amostras por julgamento so formadas por elementos que satisfaam regras
previamente determinadas. Por exemplo, analisar somente a satisfao de clientes
mulheres que compraram mais de um produto at uma semana aps o Dia das Mes.
Neste caso, o critrio de seleo est bem definido e justificado (por exemplo, s
querer analisar certos tipos de elementos do conjunto todo). E portanto os resultados da
anlise sero condizentes somente com as regras definidas (no valem para o universo
todo).
Podem ser utilizada regras de seleo ou de excluso. O segundo caso pode ser melhor
para se ter uma viso melhor do todo. Por exemplo, a loja pode querer analisar todos os

37
tipos de clientes, mas vai excluir quem s veio uma vez por ano ou quem comprou num
valor muito abaixo da mdia de gasto.

Amostras estratificadas
Esta a forma correta de gerar amostras. Para tanto, precisa-se identificar que variveis
podem interferir na anlise. Por exemplo, no caso da loja, atributos como sexo, idade,
classe scio-econmica, bairro e cidade, valor gasto e forma de pagamento podem fazer
diferena para entender os tipos de clientes. E talvez altura, peso e escolaridade no
sejam diferenciais para campanhas de marketing ou para entender comportamentos de
compra.
Depois de identificadas as variveis, precisa-se saber a proporo de elementos no
universo todo para cada varivel. Por exemplo, digamos que h 60% de mulheres e 40%
de homens entre todos os clientes da loja, e que 25% so da classe A, 50% da classe B e
25% da classe C, e assim por diante nas demais variveis.
Ento, a amostra ser definida com a mesma proporo que a diviso no universo. Ou
seja, a amostra deve conter 60% de mulheres, 40% de homens, 25% de pessoas da
classe A, 50% de pessoas da classe B, 25% da classe C e assim por diante.

4.5.2 Como separar amostras (subcolees ou subconjuntos)

Para agilizar o processo de anlise, pode-se separar subconjuntos dos dados. Alm de
tornar o processo mais rpido, evita tambm a descoberta de padres com suporte muito
baixo.

A formao de subconjuntos pode ser feita por corte vertical ou horizontal. O corte
vertical significa selecionar alguns atributos para anlise, eliminando outros. O corte
horizontal trata de selecionar alguns registros, eliminando outros.

O corte vertical (feature selection) ser discutido mais adiante. Para o corte horizontal,
as amostras podem ser definidas por tempo (ano a ano, ms a ms, etc) ou por algum
outro atributo que permita separar os dados com significado e no aleatoriamente. Pode-
se pegar um atributo especfico e fazer a separao (ex: sexo, tipo de cliente, produto ou
tipo de produto). Por exemplo, separar uma base de clientes em homens X mulheres,
separar para anlise somente produtos de um certo setor ou faixa de preo, classificar
empresas por porte e analisar em separado cada grupo.

Ou ento separar um conjunto de dados por outros dados relacionados. Por exemplo,
pode-se comparar as vendas feitas por homens X vendas feitas por mulheres, compras
de adultos X jovens X 3a idade, vendas separadas por tipo de produto ou por loja ou por
regio, etc.

Mas qual o melhor campo para separar em subcolees ? Utilizar apenas um campo ou
uma combinao de vrios campos (amostra estratificada) para separar a coleo toda
em subconjuntos ? A escolha deve ser feita por humanos ou automaticamente, como na
tcnica de clustering ?

Bom, no vi ainda uma regra que d estas respostas. Normalmente, um processo de


tentativa e erro, utilizando feeling do analista, pela sua experincia.

38
Uma constatao, entretanto, que campos com predomnio de valores no so bons
para separao. Por exemplo, num hospital possvel que mais de 90% dos pacientes
sejam atendidos pelo SUS. Ento no adiante separar os pacientes em "particulares" e
"SUS". At porque o subgrupo do "SUS" deve ser muito pequeno e no ir gerar um
nmero mnimo de elementos para se ter significncia estatstica (discutida adiante).

O que este tipo de campo nos diz que podemos sim separar um subgrupo para anlise,
mas seria o da maioria. Isto , eliminar registros com valores minoritrios. Por exemplo,
se estamos analisando uma base de clientes, e h apenas 0,1% dos clientes que moram
numa determinada cidade, no vale a pena minerar estes registros quando queremos
analisar padres pela cidade.

A lio que devemos analisar diversas amostras e comparar os padres encontrados


em cada uma. Assim, pode-se descobrir que um padro aparece numa amostra e no
aparece noutra (ex.: o caso acima citado do produto X), ou que um padro aparece com
uma probabilidade numa amostra (ex.: 80% dos clientes do bairro K utilizam servio Z)
e com outra probabilidade em outra amostra (ex.: apenas 40% dos clientes do bairro L
utilizam o servio Z).

Exemplos de como separar amostras:


Numa base de vendas ou pedidos, pode-se separar por perodo de tempo, por
exemplo, uma amostra para cada ano ou ms. Isto permitir (como ser discutido
adiante), comparar os padres encontrados em cada amostra.
Tambm possvel separar por dia da semana, mas neste caso preciso juntar dados
do mesmo dia, ou seja, se tivermos dados de vrios meses, agrupar os dados por dia
da semana. Assim, o grupo da 2a-feira ter dados de todos os meses mas somente da
2a-feira.
Outra forma de fazer a separao por tipo de cliente. Se a empresa j trabalha com
clientes segmentados, por exemplo, por plano de servios ou pessoa jurdica X
pessoa fsica, pode-se criar uma amostra para cada tipo de cliente. A amostra deve
conter no somente os dados demogrficos dos clientes (nome, endereo, sexo, etc.),
mas tambm dados comportamentais (compras feitas, hbitos, preferncias, aes).
Isto permitir comparar os clientes entre si, para realizar aes focadas.
Pode-se tambm segmentar a base de dados por caractersticas geogrficas, por
exemplo, pas, regio, estado, cidade, bairro ou setor censitrio. E isto vale para
vendas, clientes, pedidos ou at mesmo para origem de produtos.
Se quisermos separar amostras por produto, podemos utilizar categorias de
produtos, faixas de preos, composio (ex. plstico X metal), tamanho, tipo de
pacote ou embalagem.

4.5.3 Generalizaes e Especializaes

Em muitos casos, podemos encontrar atributos que so hierarquias de tipos. Por


exemplo, o caso de cidade e estado cai nesta situao. Temos uma hierarquia entre os
seguintes atributos: pas estado cidade bairro.

Se analisarmos juntos todos os atributos que formam uma hierarquia, muitos padres
descobertos iro mostrar estas relaes. E isto no interessante porque j sabemos

39
destas relaes. A soluo utilizar um dos atributos de cada vez, em cada ciclo de
anlise.

Agora note que, se usarmos o atributo mais genrico (neste exemplo, o pas), a
probabilidade de encontramos padres maior, pois h menos valores possveis para
este atributo. Entretanto, pode haver predomnio de um ou dois valores, e como j
comentamos antes isto tambm no bom.

Se usarmos o atributo mais especfico (no exemplo, bairro), pode ser que no haja
repeties e o suporte das regras encontradas seja muito baixo (ou mesmo no
encontremos padres).

A navegao por uma hierarquia d nome s operaes de drill-down e drill-up (ou roll-
down e roll-up), seja para analisar os dados com mais detalhes ou para se ter uma viso
mais superficial dos dados.

Bom, o que foi dito acima vale tambm para outros tipos de hierarquias como datas
(ano ms dia), classificaes de produtos (tipo do produto "brick" marca
embalagem), pedidos e vendas (carrinho item do carrinho), etc.

4.5.4 Amostras por perodo de tempo - analisar ritmo

Normalmente no se costuma analisar todos os dados disponveis, por causa do enorme


volume ou por limitaes das ferramentas. Mas tambm porque perigoso trabalhar
com o conjunto todo de dados. Por exemplo, uma loja analisou 10 anos de vendas e
descobriu um padro: 90% das mulheres com perfil A compravam o produto X. Ao
analisarem amostras ano a ano, descobriram que a probabilidade do padro era de 100%
nos 9 primeiros anos (ou seja, todas as mulheres do perfil A compraram o produto X
nos 9 primeiros anos). Mas no ltimo ano, nenhuma das mulheres do perfil A comprou
o produto X.

Geralmente, dividimos as amostras por tempo utilizando alguma unidade como ano,
semestre, ms, dia da semana, hora, turno, etc. Aqui a dica a tentativa e erro e a
gerao de diversas amostras para comparao. Pode-se comear com uma
granularidade intermediria (por exemplo, ms) e depois aumentar ou diminuir a
granularidade, utilizando uma unidade menor ou maior. O feeling de um especialista do
domnio pode ajudar a determinar as melhores unidades para anlise, mas tambm pode
influenciar o processo e acabar deixando fora amostras interessantes (o tal de
"achmetro").

claro que a seleo da unidade de tempo tambm passa pelo conhecimento do


domnio. Se no interessa saber qual o turno em que os eventos ocorrem, se manh,
tarde, noite ou madrugada) ou se j se sabe de antemo que no h diferena de
comportamento no incio, meio ou fim de ms, ento podemos eliminar a separao de
amostras por estas unidades de tempo. As unidades menos utilizadas so o dia do ms e
a quinzena. Ento, o melhor trabalhar com dia da semana ou semanas (1a semana do
ms diferente da ltima, e ambas so diferentes das duas semanas intermedirias).

40
Muitas vezes, a granularidade alta (unidade menor, como por exemplo a hora) pode
dificultar a interpretao dos resultados. O que significa um padro de vendas que
ocorre s 9 horas todos os dias, mas no ocorre s 8 horas nem s 10 horas ? Que
estratgias devem ser usadas para aquela hora especfica e que no valem a pena ser
usadas uma hora antes ou depois ? E tambm trabalhar com hora e minuto pode gerar
padres muito especficos, que at podem ser interessantes mas como traar estratgias
de aes para um minuto especfico ?

Outra dificuldade a seleo de dados por estaes climticas. No h como analisar as


vendas feitas no inverno. Porque no sabemos exatamente quando o inverno comea e
termina. No podemos usar as datas tradicionais, porque muitas vezes o frio comea
antes, ou s chega bem depois, ou a estao mais curta ou mais extensa. Neste caso, o
melhor seria associar a temperatura como uma atributo. Entretanto, deve-se cuidar que
alguns eventos s so desencadeados um certo tempo aps seu estmulo. Por exemplo,
propagandas na TV no geram vendas no mesmo dia, nem talvez no dia seguinte. Isto
quer dizer que se uma onde de calor acontecer no meio do inverno, no significa que as
pessoas vo correr para as lojas para comprar roupas de vero. Em alguns casos, a
reao quase imediata: se a temperatura sobe, as vendas de sorvete sobem quase que
instantaneamente.

Mais adiante discutiremos a correlao entre variveis com comportamentos


semelhantes mas em perodos de tempo diferentes (correlao assncrona).

O importante na anlise temporal entender o comportamento do grfico


correspondente, incluindo subidas, descidas, plats, e as caractersticas destes tipos de
acidentes (altura ou profundidade, a frequncia com que ocorrem, o comprimento do
perodo). Tambm interessante analisar padres que podem ser encontrados nas
sequncias: por exemplo, sempre depois de um plat e uma pequena queda, ocorre uma
subida ao dobro do plat.

No devemos tambm negligenciar padres que ocorrem com frequncias maiores que
meses. Por exemplo, para uma revenda de carros pode ser interessante descobrir que um
cliente troca de carro a cada 3 ou 4 anos. As lojas de varejo j descobriram que nos anos
de Copa do Mundo (a cada 4 anos ento), as vendas de TVs aumentam muito.

Os registros feitos ao longo do tempo formam uma srie temporal. Como discutiremos
adiante, a tcnica de minerao mais apropriada a de anlise de sries temporais.

4.5.5 Tamanho da amostra - quantidade de elementos na amostra

Como determinar o nmero ideal de elementos numa amostra ? Se olharmos para as


pesquisas para presidente do Brasil, a amostra normalmente composta por
aproximadamente 2 mil pessoas. Isto quer dizer que cada pessoa representa em torno de
50 mil outras.
O clculo estatstico do tamanho da amostra depende do erro amostral (a diferena entre
o valor estimado pela pesquisa e o verdadeiro valor e isto pode ser um valor
estabelecido como meta); do nvel de confiana (a probabilidade de que o erro amostral
efetivo seja menor do que o erro amostral admitido pela pesquisa); da populao
(nmero de elementos existentes no universo da pesquisa, valor que pode no ser

41
conhecido); entre outros (percentuais mximo e mnimo). H uma calculadora online
para fazer tais clculos: http://www.calculoamostral.vai.la/

Tversky e Kahneman (1971) discutem os problemas com amostras muito pequenas. Por
exemplo, se voc jogar uma moeda no viciada trs vezes e der duas vezes cara e uma
vez coroa, voc estar inclinado a acreditar que a probabilidade 66,66% contra
33,33%. Mas se jogar mil vezes a mesma moeda, certamente haver uma proporo
prxima de 50/50. Pior seria se nas trs primeiras jogadas, desse somente um lado.
Como sabemos que, no caso da moeda, a probabilidade 50/50, isto pode gerar a
chamada "falcia do jogador": acreditar que o jogo vai mudar para reverter uma
tendncia e voltar ao padro estatstico. Por exemplo, jogando 5 vezes a mesma moeda e
dando sempre o mesmo lado (digamos, cara), vamos acreditar que na 6a vez ir dar o
outro lado (coroa). E na 7a tambm vamos estar inclinados que dar coroa para
equilibrar o jogo e voltar proporo 50/50. Entretanto, a proporo s acontece com
amostrar maiores. Ento, as prximas jogadas s minimizam os desvios e no os
corrigem logo em seguida.

4.6 Seleo de atributos ou campos para anlise - feature selection

Como dito antes, nem sempre interessante analisar todos os atributos disponveis. Para
tanto, precisa-se selecionar alguns e eliminar outros. Esta separao pode ser feita por
benchmarking ou analogia, ou seja, utilizando o que normalmente se analisa tais como
vendas, perfil de clientes, etc.

Mesmo assim, a base ainda pode conter muitos atributos e isto pode gerar milhares de
padres estatsticos. O ruim que no se consegue interpretar todos estes padres, por
serem muitos e isto ser uma tarefa intelectual. Ento necessrio ainda eliminar alguns
atributos.

Uma dica evitar atributos com valores que no se repetem, como por exemplo
identificadores e campos chave como CPF, RG, CNPJ e cdigos criados para relacionar
tabelas. Se estes atributos forem utilizados como chaves estrangeiras, a talvez se
consiga algum padro. Por exemplo, o cdigo de clientes pode ser utilizado em vendas
para se descobrir algo especfico sobre um determinado cliente. Mas para casos em que
se queira um padro mais genrico, estes atributos no servem.

As datas devem ser "quebradas" em dia da semana, dia do ms, ms e ano, seno
dificilmente se repetiro. E se isto acontecer, de que adianta conhecer um padro que
aconteceu numa data especfica ?

Quando h campos calculados (ex: total), isto tambm pode gerar muitos padres. No
caso de associaes, certamente aparecero diversas regras relacionando o campo
calculado com seus parmetros. Um exemplo: imagine uma base de vendas com um
campo sendo o total da venda e outro sendo o imposto. Sabe-se que o imposto
calculado pelo valor total da venda. Assim, possvel que sejam identificados diverso
padres do tipo: SE imposto = X e outro_atributo = Y ENTO total_da_venda = Z.
Note que neste exemplo, vrias regras aparecero alterando somente os atributos
relacionados na parte do SE (outro_atributo). Para resolver tal problema, basta utilizar
somente um dos campos (origem ou calculado) de cada vez.

42
4.6.1 Valores que predominam

Outra dica evitar campos com valores dominantes. Por exemplo, se numa base de
dados sobre clientes, 98% dos registros so de homens (ou seja, 98% dos clientes so
homens), no vale a pena minerar o campo "sexo", pois ele estar presente em diversas
regras de associao do tipo SE atributo = X ENTO sexo = "M".

Tambm possvel que apaream regras do tipo SE atributo_1 = X e sexo = "M"


ENTO atributo_2 = Y.

Neste exemplo, mesmo que apaream regras com o sexo = "F", provavelmente o
suporte ser muito baixo, j que somente 2% dos registros tm este valor.

Outro caso de entidades ou registros que predominam. Por exemplo, suponha uma
base de pedidos onde 90% pedidos sejam de uma empresa X, e que a cidade desta
empresa seja Y. Ento possvel que sejam encontrados diversos padres com o cdigo
desta empresa. Se juntarmos os pedidos e os dados das empresas que fazem pedidos
(clientes), vo aparecer muito mais padres com a cidade Y.

4.6.2 Dependncias funcionais

Uma dependncia funcional acontece quando um atributo tem seu valor determinado
pela presena de outro (seria uma probabilidade condicional de 100%). Por exemplo, se
numa base aparecer a cidade = "Porto Alegre", o estado ser "RS" sempre (em 100%
dos casos). Ento o atributo "cidade" determina o valor do atributo "estado" (e "estado"
depende de "cidade").

De maneira formal, temos a seguinte definio:


Um atributo Y dependente funcionalmente do atributo X, se, para cada valor do
atributo X, existe exatamente um nico valor do atributo Y. A dependncia funcional
representada por X Y (ou seja, X determina o valor de Y). Por exemplo, o atributo
"nome" dependente funcionalmente do atributo "CPF", pois o valor do CPF determina
o nome da pessoa. O inverso no ocorre porque pode haver duas pessoas com o mesmo
nome (CPF NOME).

Em termos de anlise de dados, as dependncias funcionais tendem a gerar diversos


padres associativos que no so novos. O problema a quantidade. E isto pode gerar
sobrecarga na hora da interpretao dos resultados.

Para evitar tal problema, basta utilizar um dos atributos por vez, em cada ciclo de
anlise. Ou seja, utilizar somente um dos campos da dependncia. Eliminar os campos-
chave, como cdigos e identificadores, tambm minimiza o problema.

43
4.7 Discretizao - faixas ou grupos de valores

Quando h valores numricos (contnuos ou discretos), pode ocorrer de no


encontramos repeties. Por exemplo, uma base de clientes com o atributo "idade", uma
base de vendas com o atributo "total da venda", uma base sobre produtos com o atributo
"preo" e assim por diante.

Uma possibilidade agrupar os valores criando faixas ou intervalos de valores. H


tcnicas automticas e mesmo software que realizam este processo sem interveno
humana, utilizando tcnicas estatsticas. Este processo chamado de "discretizao".

Se uma pessoa for realizar a separao dos valores, pode incorrer em erros. Por
exemplo, como separar por idade. De que idade at que idade seria o grupo dos jovens,
dos adultos, das crianas e da chamada 3a idade ?

Alm disto, da dificuldade em fazer tal separao, ainda h o problema de onde


classificar os valores prximos dos limites dos grupos. Por exemplo, se definirmos que
crianas vo at 14 anos e adolescentes comeam com 15 anos, como tratar justamente
quem est nestes limites (tm 14 ou 15 anos).

30

25

20

15

10

0
30 31 32 33 34 35 36 37 38 39 40
Figura 3: Grfico para mostrar discretizao de forma intuitiva

Uma sada para isto utilizar a lgica difusa (fuzzy). Ela permite que um elemento seja
classificado em diferentes grupos mas com graus de pertinncia diferentes. Isto significa
que algum pode dizer que hoje est frio e quente ao mesmo tempo. Mas a pessoa dir
que est frio com grau 0,7 (por exemplo) e est quente com grau (0,3). Ento, no caso
do jovem com 14 anos, ele poder ser classificado tanto como criana como adolescente
(o mesmo com o jovem de 15 anos). Para efeitos de marketing, isto bom, porque as
campanhas no iro perder a oportunidade de atingir certas pessoas por dvida na
classificao.

Para realizar a discretizao, h tcnicas estatsticas e softwares que fazem isto


automaticamente. Para entender intuitivamente como ocorre a discretizao, vejamos a

44
Figura 3. Ela apresenta o nmero de pessoas (eixo vertical "y") que possuem uma
determinada idade (eixo horizontal "x").
Algum poderia dividir este grupo de pessoas em 2 ou 3 grupos. No caso de 2 grupos,
teramos pessoas com idade entre 30 e 32 (inclusive) num grupo e pessoas de 34 a 40
anos num segundo grupo. Se quisermos podemos dividir ainda o segundo grupo em 2,
um com idade entre 34 e 37 e outro com idades entre 38 e 40.

4.8 Data Warehouse

Em geral, os processos de BI devem ser feitos sobre bases de dados separadas, e no


sobre a base transacional, onde ocorrem as operaes do dia a dia, para no onerar
servidores ou atrapalhar operaes de colaboradores. Imagine uma empresa
multinacional com revendas espalhadas por todo o mundo e de repente seus vendedores
no conseguem realizar nenhuma venda, porque os servidores de aplicao e banco de
dados esto ocupados com algum executivo realizando anlises complexas de dados.

Ento a soluo gerar uma base s para anlise, chamada de base OLAP (on line
analytical processing). Este o conceito de Data Warehouse: uma base centralizada
formada por dados copiados de outras bases, as chamadas bases OLTP (on line
transactional processing). Ento separamos as bases de dados e os servidores: um
esquema para aplicaes transacionais a nvel operacional da empresa (com tarefas de
incluso, excluso, alterao e consulta simples de registros e valores) e outro esquema
com dados s para anlise (dados no volteis, onde somente haja incluso), apoiando
decises tticas e estratgicas.

45
5 Tcnicas de Anlise de Dados
Este captulo pretende apresentar diversas tcnicas para anlise de dados, incluindo um
conjunto de tcnicas conhecidas como Data Mining, mas tambm tcnicas de anlise de
dados cbicos (montagem de cubos) ou anlise OLAP, as quais so popularmente
chamadas de BI.

Anlise qualitativa X quantitativa

Comeamos explicando que a maioria das tcnicas de anlise de dados baseada em


tcnicas estatsticas. E estas por sua vez, devem ser aplicadas sobre dados quantitativos
ou estruturados. Dados quantitativos incluem variveis que podem ser expressas com
valores numricos (ex.: idade, quantidade de produtos em estoque, quantidade vendida,
tempo de permanncia de pacientes em hospitais), valores temporais (data e hora, por
exemplo) ou valores conhecidos com nominais, categricos ou qualitativos (ex.: bairro,
cidade, sexo, classe social). Estes ltimos so valores selecionados de um conjunto
limitado, e no incluem atributos textuais que podem ser preenchidos com texto livre
(ex.: descrio de um problema ou uma soluo). Os dados nominais so semelhantes a
dados numricos porque poderiam ter um correspondente numrico. Por exemplo, sexo
pode ser armazenado com um nmero representado os diferentes tipos (e h bases de
dados que trabalham com mais de 2 sexos). Satisfao de clientes poderia ser
representada por escalas numricas; bairros, cidades e pases podem ser representados
por cdigos numricos.

Por outro lado, h tambm anlises qualitativas. Estas tm por objetivo encontrar as
variveis envolvidas, para depois ento serem aplicadas tcnicas quantitativas. Por
exemplo, uma pesquisa sobre refrigerantes preferidos por uma populao pode comear
por uma pesquisa qualitativa, para que fossem identificados as diferentes preferncias.
Tambm pode-se fazer uma anlise qualitativa para identificar possveis motivos para
cada preferncia. Aps ento, pode-se conduzir pesquisas quantitativas para determinar
quantidades (quantas pessoas preferem cada tipo e quantas vezes cada motivo foi
citado). A anlise qualitativa pode ser feita de forma manual ou intelectual por
humanos, mas j h ferramentas de software que auxiliam tal processo. Neste caso,
normalmente a anlise qualitativa feita sobre dados chamados no-estruturados, os
quais incluem textos, sons e imagens (figuras, desenhos, diagramas, fotos, vdeos, etc.).

Um processo de BI normalmente aplica tcnicas quantitativas sobre variveis. Mas no


deve excluir anlises qualitativas. Isto envolve, por exemplo, a descoberta de quais
variveis devem ser includas em um modelo para anlise, que eventos podem interferir
nos resultados e como representar quantitativamente cada atributo. Por exemplo, a idade
de pessoas pode ser representada utilizando um valor numrico absoluto (ex.: 35 anos),
um valor relativo (ex.: mais jovens, mais velhos), uma faixa ou intervalo de valor (ex.:
pessoas entre 15 e 20 anos) ou uma categoria ou valor nominal (ex.: crianas, jovens,
adultos, terceira idade).

Qualitativo para quantitativo

"Todas as coisas so nmeros", j dizia Pitgoras h mais de 2 mil anos atrs. Se as


coisas no nascem nmeros, ns as transformamos em nmeros. A representao por
46
nmeros comeou para facilitar as comparaes e depois o comrcio. E isto permitiu
identificar padres, para entendermos o passado e podermos nos preparar para o futuro.
Assim foi contando dias, estaes e anos. S assim entendemos os ciclos da agricultura
e de morte-vida de animais, inclusive ns mesmos. Usamos nmeros e funes
matemticas para encontrar padres, para fazer raciocnio probabilstico e previses,
para tomar decises com base em probabilidades. mais fcil assim entender a
natureza, os sistemas, os comportamentos e relaes, e at mesmo a complexidade.

A Teoria do Caos diz que h padro em tudo, at mesmo no nosso livre arbtrio. E tudo
se reduz a funes matemticas. A dificuldade no nem encontrar a funo que rege
cada sistema, mas sim saber quais variveis influenciam cada resultado, e depois
conseguir coletar em tempo hbil cada medida. O Prmio Nobel de Economia
geralmente dado a matemticos, porque estes descobrem funes matemticas para
explicar comportamentos econmicos. Um destes casos o de John Nash. No filme
"Uma Mente Brilhante", a vida deste gnio bem retratada. Em algumas passagens
podemos ver como sua mente funcionava, tentando encontrar padres matemticos em
tudo, por exemplo, pssaros voando, pessoas caminhando no campus da universidade.

A famosa srie de Fibonacci foi encontrada em vrios casos na natureza (sementes de


girassis, caracis, alinhamento de planetas). A regra desta srie de que o prximo
nmero soma dos 2 anteriores (0, 1, 1, 2, 3, 5, 8, 13, 21, ...). Ela era utilizada na
arquitetura antiga como uma forma de esttica e beleza. Outra srie famosa a que
virou a lei de Titius-Bode. Ela foi formulada inicialmente por Johann Titius em 1776 e
depois formulada como uma expresso matemtica por J. E. Bode em 1778. Esta srie
descreveria a distncia dos planetas ao sol (com algum ajuste). Com esta srie William
Herschel descobriu um novo planeta alm de Saturno: Urano (Losee, 2001). Tambm
procuraram o planeta que faltava entre Marte e Jpiter e descobriram os asteroides
Ceres e Pallas. claro que os cticos falam em coincidncia.

A Geometria, um ramo da matemtica, tambm est presente na arquitetura e nas


relaes do corpo humano. O desenho do Homem Vitruviano de Leonardo Da Vinci
apresenta as propores do corpo humano. E Da Vinci se inspirou em Vitrivius, que
acreditava que a arquitetura deveria imitar as propores da natureza (Christianson,
2012).

Tornar o subjetivo em objetivo, o abstrato em mensurvel, o incompreendido e


intocvel em algo simples: este o desafio de transformar o qualitativo em
quantitativo..

Os programas que "escutam" um trecho de msica e nos dizem que msica ,


transformam msica (sons) em nmeros para poder fazer a comparao rpida. Os
softwares de biometria (identificao por caractersticas fsicas da pessoa) tambm
transformam um ser humano em nmeros. Nossas caractersticas (traos do rosto ou das
impresses digitais, atributos de nossa voz ou pupilas) so transformadas para equaes
matemticas para uma rpida anlise.

No nosso dia a dia, tambm usamos simplificaes deste tipo. Por exemplo, para
representar a qualidade de um filme ou uma msica, usamos estrelas. Quanto mais
estrelas, melhor a qualidade. Mas como traduzir um conjunto de diretores, atores, temas,
cenrios, etc. a um nico nmero. J h estudos para anlise automatizada de textos e

47
imagens. Isto certamente passa por nmeros e frmulas matemticas. S assim
poderemos num futuro breve pesquisar no Youtube por um vdeo onde aparea um casal
numa praia com coqueiros, ao entardecer.

O humor da humanidade j pode ser representado por uma srie temporal, a partir da
anlise de postagens no Twitter. E j se pode entender o aumento de vendas pela anlise
dos grficos do Google Trends. E isto inclui prever a bilheteria de um filme analisando
blogs. Os artigos de Bollen et al. (2011), Choi e Varian (2012) e Mishne (2006)
explicam o que eu estou dizendo.

At a vida das pessoas est sendo representada em nmeros. O mtodo do biorritmo


pretende mostrar as caractersticas fsicas, emocionais, intelectuais e intuitivas em
momentos no tempo. Isto permitiria considerar o momento de cada dimenso para
tomar decises. O pressuposto que a vida de uma pessoa, representada por estas 4
dimenses, segue ciclos de perodos regulares (contados em dias). A Figura 4 abaixo
mostra o meu Biorritmo no dia 18 de agosto de 2013, calculado pelo site
http://www.profcardy.com/numerologia/biorritmo.php

Figura 4: biorritmo num determinado dia

J a Figura 5 mostra a previso para os prximos 2 meses. Quando as 4 linhas estiverem


l embaixo, no vou marcar nenhum compromisso.

48
Figura 5: biorritmo para vrios dias

Nem sempre os nmeros so melhores que nossas intuies e sentimentos. Nate Silver
relata que olheiros humanos tiveram melhores desempenhos que as estatsticas do
sistema Pecota em vrios casos no baseball (Silver, 2013). Apesar de Lewis (2004)
relatar alguns casos contrrios, (em Moneyball, as estatsticas foram melhores que
olheiros), a concluso que ambos devem se ajudar. A prova disto que a equipe de
Obama mesclou dados e sentimentos das pessoas para fazer uma campanha vitoriosa
(Moraes, 2012).

5.1 Data Mining - tcnicas tradicionais sobre dados estruturados

Nesta seo, apresentamos as principais tcnicas para Data Mining, seu funcionamento
e suas aplicaes.

Associao
Esta tcnica a mais famosa e ficou conhecida depois que uma rede de supermercados,
ao utilizar uma ferramenta de Data Mining com esta tcnica, descobriu que, nas 6as-
feiras, quem comprava fraldas tambm comprava cerveja.
O objetivo da tcnica avaliar que valores aparecem muito juntos nas mesmas
transaes ou eventos (por exemplo, carrinhos de compras), mas tambm pode ser
utilizada para identificar relaes entre atributos dentro de uma mesma entidade (ex.:
clientes do sexo feminino costumam morar mais no bairro X).
Para isto, a tcnica baseada na probabilidade condicional. A Figura 6 apresenta uma
amostra exemplo de uma tabela num banco de dados. Nela podemos ver que h 2
campos, C1 e C2, e os valores que aparecem nas linhas (transaes). Pode-se notar que
os valores X e Y aparecem em comum em muitas linhas.

49
A probabilidade condicional resulta em implicaes do tipo X  Y, que so chamadas
regras condicionais e podem ser lidas como "se X aparecer, ento Y tem grandes
chances de aparecer tambm". A implicao tem um grau dede probabilidade ou confiana
(confidence), que calculado pela razo entre o nmero de registros onde X e Y
aparecem juntos, dividido pelo nmero de registros em que X aparece (independente da
presena de Y).

No exemplo da Figura 6, temos que a regra X  Y possui confiana de 80%. Isto quer
dizer que h 80% de chances de Y aparecer no campo C2 na mesma linha em que X
estiver no campo C1. Ou olhando para o passado, Y aparece em 80% das linhas onde X
aparece.

Note que a relao inversa pode possuir outro grau de confiana. No exemplo, a regra Y
 X tem confiana de 100%, calculada pela diviso do nmero de registros onde Y e X
aparecem juntos pelo nmero de vezes em que Y aparece.

importante tambm observar o suporte da regra, ou seja, o nmero de casos. Imagine


que um supermercado descubra que 100% dos clientes que compraram o sapato de
nmero 48 tambm compraram o Xampu de Abacate. Seria interessante fazer uma
campanha de marketing para isto ? Se o nmero de casos (suporte) for muito baixo, no
vale a pena.

Figura 6: Associaes de valores entre 2 campos para Data Mining

Os algoritmos para este tipo de tcnica no so muito complicados.


complicados. O que complica
que todas as combinaes devero ser avaliadas, ou seja, todos os tipos de regras. Isto
quer dizer que o campo C1 ser avaliado implicando em C2, C3, C4, etc. Depois C2
ser avaliado contra C3, C4, etc, e assim por diante. Depois faz-se o caminho inverso.
Alm disto, regras complexas, com mais de um campo na parte anterior (no "se")
tambm sero avaliadas e a poderemos ter regras complexas tais como "Se cliente
mulher, mora no bairro X, tem idade entre 20 e 30 anos, solteira, tem curso
curso superior,
Ento compra o produto X". A Figura 7 apresenta uma ideia de como ser feita a
combinao de campos. Note que a tcnica avalia um campo contra outro, 2 campos
contra um 3o, 3 campos contra um 4o e assim por diante, fazendo todas as combinaes
possveis.

50
Figura 7: Comparao de valores entre campos para Data Mining

Correlao
A tcnica de correlao procura avaliar a similaridade entre duas variveis numricas.
Este tipo de anlise no indica causalidade,
causalidade, ou seja, no diz se um atributo leva a outro,
se causa de outro (ou se um consequncia de outro). Apenas indica que h uma forte
relao entre os atributos, pelos seus valores quantitativos. A anlise de correo pode
inclusive indicar a fora da correlao.
Esta fora de correo pode ser medida numa escala de 1 a -1. O valor 1 indica que as
variveis esto fortemente correlacionadas.
correlacionadas. O valor zero indica que no h nenhum
relao entre elas, e o valor -1 indica uma relao inversa (quanto o valor de uma
varivel alto, o valor da outra baixo).

A Figura 8 apresenta um exemplo com diversos vetores com valores numricos. Os


vetores de V2 a V6 sero comparados com o vetor base V1, tendo as seguintes
caractersticas em relao ao vetor base:
V2: metade dos valores so iguais e outros bem diferentes;
V3: valores muito prximos (para mais ou a menos);
V4: valores exatamente iguais;
V5: valores bem diferentes;
V6: valores pela metade.

Pode-se notar que o vetor V4 tem um grau de correlao igual a 1 em relao ao vetor
V1, pois todos os valores so idnticos. J o vetor V3, com valores muito prximos, tem
um a correlao em mais de 99%. O vetor V2 tem correlao de 97,4% porque metade
dos valores so iguais ao vetor V1. O vetor V6 com valores pela metade tem correlao
de 88,7% e por fim o vetor V5 com valores bem diferentes tem s 14,2% de correlao
com o vetor V1.

Esta tcnica til para verificar se h uma relao entre atributos quantitativos, por
exemplo, temperatura e vendas. Como os valores de temperatura oscilam entre 0 e 50 e
as vendas possuem valores bem diferentes, preciso fazer uma normalizao, ou seja,
levando ambas as faixas de valores para o mesmo intervalo (por exemplo, entre 0 e 1).

51
Uma maneira de fazer isto dividir o intervalo original por um valor base (por exemplo,
temperatura dividida por 100) ou fazer a transposio proporcional de valores mnimos
e valores mximos, mantendo a proporcionalidade entre os valores.

V1 V2 V3 V4 V5 V6
40 70 39 40 20 20
120 120 123 120 300 120
60 80 62 60 120 30
300 300 301 300 150 150
150 120 148 150 80 75
200 200 202 200 90 100
80 60 79 80 140 40
180 180 179 180 100 90
correlao= 0,974583 0,999773 1 0,142469 0,887595
Figura 8: Planilha de vetores e grau de correlao

Outras aplicaes incluem a anlise de correlao entre indicadores dentro da empresa.


Eis alguns exemplos:
nmero de horas de treinamento X nmero de falhas: note que na normalizao,
ser preciso inverter algum vetor, pois quanto mais horas, menos falhas so
esperadas;
nmero de vendedores X tamanho da receita;
aumento nas vendas X aumento no salrio;
nmero de promoes X aumento de clientes.

Isto til para se saber quais aes esto realmente impactando em objetivos. Mais
adiante discutiremos a questo da causalidade, ou seja, se uma forte relao entre duas
variveis pode indicar que uma causa da outra.

Figura 9: Grficos semelhantes indicando correlao entre variveis

52
Correlao assncrona

Podemos ver na Figura 9, os grficos em cor preta e vermelha so muito parecidos.


Provavelmente, se usarmos a tcnica de correlao iremos verificar um alto grau de
similaridade entre estas duas variveis.
Agora veja a Figura 10. H correlao entre estes 2 grficos ? Talvez sim, se
posicionarmos eles de forma diferente, fazendo coincidir os picos.
Pode haver correlao entre duas variveis mas utilizando como marco zero momentos
diferentes no tempo. Steven D. Levitt (Freakonomics) sugere haver uma relao entre a
reduo de crimes verificada no Natal de 1989 nos EUA e a legalizao do aborto
naquele pas 20 anos antes. Quando h uma relao de causa-efeito, nem sempre o
efeito imediato.

Figura 10: Correlao assncrona entre duas variveis

Anlise de Regresso e Modelos de Predio

A Anlise de Regresso uma tcnica estatstica que estuda a relao entre duas ou
mais variveis, procurando elaborar um modelo para explicar o comportamento relativo
destas variveis. til para inferir a relao de uma varivel dependente (varivel de
resposta) com variveis independentes especficas (variveis causais ou explicativas do
resultado).

O modelo em questo, normalmente, uma funo matemtica que relaciona as


variveis, ou seja, que permite calcular o valor da varivel dependente com base nos
valores das outras variveis (causais ou explicativas).

Por exemplo, imagine que a Coca Cola tivesse uma funo relacionando o dia do ano
com a quantidade vendida de seu principal produto. A funo iria dizer o quanto a Coca
Cola iria vender num determinado dia futuro e assim ela poderia produzir somente o que
espera vender (ver Figura 11). A varivel dependente a quantidade vendida do produto
e a varivel independente o dia do ano (pois no depende das vendas e sim o
contrrio). Infelizmente a coisa no to simples assim, pois outros fatores influenciam
a quantidade de vendas, incluindo temperatura, promoes, aes da concorrncia, etc.

53
Figura 11: Tcnica de Modelo de Predio

A principal vantagem de poder determinar a relao entre duas variveis poder


realizar previses sobre o comportamento futuro das variveis, calculando um valor
quantitativo futuro ou at mesmo podendo prever acontecimentos (eventos) que ainda
no ocorreram.

Por exemplo, Thomas Morus equacionou o crescimento da populao como uma funo
exponencial enquanto que previu o crescimento linear da produo de alimentos,
chegando ento concluso que iria faltar comida no futuro. Os servios de
meteorologia utilizam modelos matemticos desta forma, juntando diversas variveis
para poder prever o tempo (temperatura, se vai chover ou no, o quanto vai chover, qual
ser a velocidade do vento, etc.).

Outra forma de aplicao dos modelos construdos desta forma poder fazer
simulaes, fornecendo como entrada dados ainda no observados. Imagine que h um
modelo que representa a relao entre nmero de vagas nas escolas, nmero de
empregos e que tenhamos informaes sobre a idade e nvel de escolaridade de cada
pessoa num pequeno pas. E que ainda seja possvel determinar a taxa de crescimento da
populao, vagas nas escolas e empregos. Ento, usando a anlise de regresso seria
possvel ter uma funo matemtica relacionando estas variveis. Isto seria til para
prever as quantidades futuras destas variveis, assumindo uma linearidade. E tambm
claro assumindo que outras variveis no interferissem (no haver evaso, migraes,
repeties de ano, etc.). Outro benefcio do modelo seria poder avaliar eventos futuros
caso alguma varivel tivesse alterao de comportamento. Por exemplo, e se o nmero
de nascimentos aumentasse muito (acima do esperado), e se o nmero de vagas de
emprego no crescesse tanto quanto esperado (acima do linear), e assim por diante.

A relao entre as variveis pode ser funcional (por exemplo, a rea de um crculo em
relao medida do raio deste crculo) ou estatstica. A relao pode existir mas no
necessariamente ser exata. Por exemplo, a idade das pessoas em relao altura; so
funes lineares que progridem juntas com uma certa relao at certo ponto. Mas
talvez no seja possvel identificar uma funo matemtica que, a partir de uma, seja
possvel calcular o valor de outra.

Outro exemplo a relao (hipottica) inversa entre o aumento das vendas de TVs num
determinado pas e o ndice de mortalidade infantil neste mesmo pas. At podemos
encontrar uma funo matemtica que relacione os ndices, ou seja, pode haver uma
forte correlao estatstica (como discutido na tcnica anterior) mas certamente uma
varivel no causa de outra. E este tipo de correlao que pode desviar a anlise de
causa-efeito, como discutiremos mais adiante.

54
Os modelos de regresso podem ser:
- simples: quando uma varivel depende somente de outra varivel; ou
- mltiplos ou multivariados: quando uma varivel depende de um conjunto de outras
variveis (o caso das vendas).

E os modelos tambm podem ser:


- lineares: quando a funo de relao entre as variveis linear; ou
- no lineares: quando a funo tem outra forma, como por exemplo, exponencial,
logartmica, geomtrica, etc.

A Teoria do Caos diz que temos funes para descrever tudo. O filme "Uma Mente
Brilhante" mostra a vida do matemtico John Nash, que descobria funes matemticas
para tudo. A dificuldade da tcnica de anlise de regresso no descobrir a funo que
relaciona as variveis, pois isto os softwares de Data Mining podem fazer. O problema
est em conseguir dados de todas as variveis envolvidas e numa quantidade suficiente
para tornar a previso significativa em termos estatsticos. E isto inclui tambm em
conhecer ou determinar quais variveis influenciam o resultado (discutiremos isto mais
adiante quando tratamos de descobrir hipteses para causas).

Mdia
Na falta de uma funo, podemos utilizar valores mdios. Imagine, como na Figura 12,
termos histrico de vendas em 3 anos seguidos. Podemos
Podemos fazer uma funo mdia com
os valores mdios dos 3 anos ou mesmo utilizar intervalos, e isto ajudaria a prever o
comportamento para anos futuros.

Figura 12: Tcnica da Mdia

Deteco de desvios (outliers)


Normalmente, o ser humano tem a tendncia de procurar por padres que se repetem, ou
seja, que sejam comuns ou mais frequentes. Por exemplo, quais os produtos mais
vendidos, qual o tipo de cliente mais comum, qual o comportamento tpico dos
consumidores. Mas algumas vezes o incomum tambm interessante. Por exemplo,

55
investigar por que somente uma pessoa comprou o produto Y no ltimo ms, por que
um vendedor no atingiu a meta (o normal seria premiar o melhor vendedor e descobrir
o que os melhores fizeram de bom e em comum para que tais melhores prticas sejam
repetidas).

Estas peas fora do padro so chamadas


chamadas de Outliers. Em alguns casos, eles so mais
importantes que os casos normais. Por exemplo, analisando sadas de um determinado
material do almoxarifado de uma empresa, tem-se uma padro de sada (uma quantidade
mdia ou intervalo normal), como na Figura 13. Entretanto, num determinado ms,
houve muito mais sadas que o normal. Isto deveria gerar um alerta na empresa. Isto
pode estar acontecendo por roubo ou pode estar indicando uma tendncia que a empresa
no soube prever.

A tcnica de deteco de desvios utiliza funes ou intervalos mdios (padres), mas


seu objetivo estar atento ao que se desvio dos valores mdios, os outliers. Em alguns
casos, eles so mais importantes que os casos normais.

Figura 13: Deteco de desvios (outliers)

Esta tcnica tambm utilizada por instituies


instituies financeiras e administradoras de cartes
de crdito. Se voc tem um limite de mil reais num carto, mas nunca fez compras
acima de 500 reais, quando fizer uma compra de 700 reais, a operao ser autorizada
mas imediatamente iro lhe telefonar para confirmar
confirmar a operao, pois ela "fugiu" do seu
padro.

Sequncia de tempo
Esta tcnica analisa sequncias de eventos. Por exemplo, a tcnica de associao pode
identificar que fraldas so compradas em conjunto com cerveja, mas na mesma
transao. Agora, se muitas pessoas compra um TV fina hoje e voltam depois de 3
meses para comprar um home theater,
theater, isto funo da tcnica de sequncia de tempo.
A Figura 14 apresenta um exemplo. Imaginem que so pacientes com suas linhas de
tempo, e cada forma colorida indica um determinado evento importante na sade desta
pessoa. Podemos prever que h grande probabilidade de ocorre um evento do tipo
"bolinha vermelha" na linha de tempo da paciente Ana, logo no incio do ano de 2006,

56
j que todos os pacientes que tiveram eventos do tipo "tringulo amarelo" no incio de
um ano, tiveram "bolinha vermelha" no incio do ano seguinte. claro que isto s um
exemplo e a probabilidade deve ser levada em conta e no somente um nmero pequeno
de casos.

Figura 14: Tcnica de anlise de sequncia temporal

Maltz e Klosak-Mullany (200) utilizaram a tcnica de sequncia de tempo (um tipo de


Data Mining) para encontrar padres estatsticos no comportamento de jovens
delinquentes nos EUA e antever eventos ruins em suas vidas, para intervir antes que
aconteam.

Sries Temporais

Quando no possvel encontrar uma funo que descreve o comportamento de uma


varivel (por exemplo, valor das aes de uma empresa ao longo do tempo), pode-se
tentar prever pelo menos valores futuros num pequeno espao de tempo. No caso das
aes, por exemplo, pode-se querer saber se vo descer ou subir no dia seguinte.
Uma das formas de se fazer isto analisando repeties de sries ao longo do tempo.
Para isto, utilizam-se valores numricos registros em sequncia por vrios perodos de
tempo (a unidade de tempo no fixa).

A Figura 15 apresenta o comportamento de uma varivel ao longo do tempo, com seus


altos e baixos. Imagine que se deseje saber
saber o que vai acontecer aps a linha contnua
(mais direita). Pode-se notar que um segmento deste grfico repete-se. Ento,
possvel que o segmente que se repete seja maior e com isto saberamos que a linha ir
subir (como no trecho pontilhado).

claro que as sries temporais so baseadas na premissa de que os comportamentos se


repetem, pelo menos em parte (trechos ou momentos ao longo do tempo). Se isto no
acontecer, no h por que usar sries temporais. Entretanto no se sabe qual o tamanho

57
de cada repetio. Alm disto, h a premissa que outros fatores no iro influenciar o
comportamento. Por exemplo, no caso das aes, uma notcia ou evento relevante pode
influenciar o comportamento de compra e venda das aes, e o que era esperado (subir
ou descer) pode no acontecer devido a isto.

Figura 15: Exemplo de anlise de sries temporais - dentro da mesma srie

Outra possibilidade de utilizar sries temporais comparar comportamentos de


entidades diferentes. No caso anterior, usamos como exemplo a srie de uma mesma
entidade e as repeties eram procuradas dentro da mesma srie. Na Figura 16, temos
uma srie principal acima e 3 relacionadas abaixo. Podemos supor que so grficos
referentes a totais de vendas ou receitas na matriz (acima) e filiais (abaixo). Pode-se
notar que a srie da matriz semelhante srie da filial mais esquerda, se analisarmos
subidas e descidas em sequncia e em momentos prximos no tempo. No caso deste
exemplo, pode significar que a matriz e esta filial possuem prticas semelhantes. Se
quisermos que as demais tenham comportamento semelhante ao da matriz, as filiais
devem utilizar prticas semelhantes da filial mais esquerda.

Nesta mesma figura, pode-se notar que a filial mais direita tem um grfico quase que
exatamente inverso ao da matriz. Isto pode significar comportamentos competidores:
quando um grfico est em cima, o outro est em baixo e vice-versa. Ento, a
comparao entre sries tambm pode ser feita para encontrar sries inversas ou
contrrias.

Figura 16: Exemplo de anlise de sries temporais - comparao entre sries

58
A comparao de sries se d no por proximidade de valores no tempo mas por
semelhana no grfico (subidas e descidas). Isto quer dizer que duas sries so
semelhantes no importando o momento no tempo. Na Figura 17, podemos ver que as
sries A e B so semelhantes e iniciam ao mesmo tempo. Por outro lado, a srie C
tambm semelhante srie A, mas se inicia um pouco depois. Isto pode ser til para
avaliar retorno de campanhas de marketing. Por exemplo, ao se colocar propaganda na
TV, talvez as vendas no cresam logo no dia seguinte. E se tirarmos a campanha do ar,
talvez as vendas ainda sigam aquecidas por um certo tempo.

Figura 17: Sries temporais com diferena no momento de incio da srie

Classificao (categorizao)
A tcnica de classificao tem por objetivo encontrar a classe de um elemento. Note que
por "classe", pode-se at mesmo entender uma ao (por exemplo, aprovar ou rejeitar
um pedido de emprstimo). Para que a tcnica funcione, as classes devero j existir
previamente.

O processo de avaliar a qual classe pertence um elemento novo pode fazer uso de regras
determinsticas, probabilsticas, heursticas, rvores de deciso, tabelas de deciso ou
RBC (baseado em exemplos), conforme discutido no captulo sobre Sistemas
Especialistas.

59
Induo
O objetivo desta tcnica a identificao de um modelo para classificao, ou seja, a
descoberta das regras de classificao. Isto feito atravs do chamado "aprendizado
avaliados para identificar padres. Os
supervisionado", onde exemplos de treino so avaliados
algoritmos clssicos para induo incluem ID3 e C4.5.

Tambm possvel identificar, ao invs de regras, apenas as caractersticas de cada


classe. Para isto, pode-se calcular o "centride" da classe, que um elemento
elemento hipottico
que representa a classe, tendo a mdia das caractersticas dos elementos da classe ou um
caractersticas de todos os elementos da classe.
elemento hipottico que tenha todas as caractersticas

Clusterizao ou Agrupamento (clustering)


A tcnica de Clustering recebe um grupo de elementos e da identifica as classes. Ou
seja, diferentemente da tcnica de classificao, as classes no existem ainda ou no so
conhecidas.

O princpio bsico da tcnica colocar no mesmo grupo os elementos mais similares e


em grupos diferentes os elementos pouco similares. Este agrupamento feito por
algoritmos automticos como o k-Means e algoritmos baseados em grafos como Stars,
Single-link, Strings e Cliques.

Figura 18: Exemplo de clustering

Mas para entender o processo, observe a Figura 18. Este grfico posiciona clientes num
plano que relaciona a idade da pessoa e o nmero de horas que passa na Internet por
ms. Os smbolos no meio do grfico representam o tipo de produto
produto adquirido pelo
(vermelho = carto;
cliente (quadrado, crculo ou tringulo) e a forma de pagamento (vermelho
azul = boleto; amarelo = depsito bancrio).

60
Visualmente pode-se verificar que clientes de mais idade e que passam menos horas na
Internet (quadrante mais esquerda e em cima), dominado por clientes que pagam por
boleto bancrio (cor azul). Clientes que compram por depsito bancrio (cor amarela),
s compram produtos do tipo crculo. Os clientes de menos idade tendem a passar mais
horas na Internet e pagar com carto (cor vermelha).

Uma empresa de telefonia segmentou seu portflio de 70 aparelhos em quatro grupos,


correspondendo a quatro categorias de clientes. A anlise de perfis foi feita com base
em atitudes dos clientes e resultou em 4 grupos de clientes: o "descomplicado",
"multifuncional", "fashion" e "high tech".

O cliente "descomplicado" o que pretende apenas falar ao telefone, sensvel a preo


e no se importa com marcas, quer um aparelho de boa qualidade, durvel e fcil de
usar. O "multifuncional" faz questo de aproveitar todas as funcionalidades, como
agenda, emails, vdeo, foto e tudo o mais que o aparelho oferecer para facilitar seu
trabalho. O "fashion" aquele que busca personalizao, quer que o seu celular se
identifique com ele, unindo as funes do anterior ao aspecto de esttica. Por fim, o
"hight tech" aquele que faz questo de ter o aparelho mais sofisticado, com bluetooth,
cmera com alta resoluo, e tudo o que a tecnologia oferecer. Em geral no se importa
com preos.

Esta segmentao atitudinal no tem nada a ver com o poder aquisitivo do cliente.
A separao foi feita manualmente mas poderia ter utilizado ferramentas automticas de
clustering.

5.2 Anlise de cubos e anlise multidimensional OLAP

Geralmente, os dados que compem um Data Warehouse so organizados numa


estrutura chamada Multidimensional. Isto porque h uma estrutura principal de dados
(fatos) e estruturas auxiliares (dimenses). Por exemplo, um banco de dados sobre
vendas de uma empresa teria como fatos os dados sobre as vendas (nota fiscal, cdigos
de produtos, cdigo de clientes, data, valor pago, forma de pagamento, cdigo da loja,
cdigo do vendedor), enquanto haveria outros dados relacionados a vendas (dimenses).
As dimenses normalmente possuem uma estrutura particular e separada. Neste nosso
exemplo, as dimenses e seus dados seriam: produtos (descrio, preo, setor), clientes
(nome, endereo, idade), lojas (endereo, tamanho, gerente) e vendedores (nome,
endereo, salrio, data de admisso). Ento o modelo deste exemplo possui 4 dimenses
e uma base de fatos.

A vantagem de utilizar dimenses que os fatos podem ser vistos sob diferentes
perspectivas. Neste exemplo das vendas, o total de vendas pode ser apresentado por
produto, por cliente, por loja ou por vendedor. O interessante tambm dos dados
multidimensionais que as dimenses podem ser cruzadas: por exemplo, comparar a
idade do cliente com o preo do produto. Tal tipo de cruzamento nos dar informaes
que no poderiam ser vistas antes (como discutiremos nos prximos pargrafos).

A Figura 19 e a Figura 20 apresentam o mesmo conjunto de dados (vendas: produto X


loja X quantidade). Na primeira representao, foi utilizado um modelo relacional no-

61
normalizado, enquanto que na segunda temos uma representao multidimensional
(com matrizes). O formato multidimensional mais compacto e tambm ajuda nas
operaes de anlise. Neste exemplo, h somente duas dimenses: lojas e produtos.

Loja Produto Quantidade


1 X 10
1 Y 15
2 X 25
2 Y 20
2 Z 30
3 X 10
3 Z 20

Figura 19: Comparao de esquemas relacional X multidimensional para DWH

PRODUTOS

X Y Z
1 10 15 -
LOJAS
2 25 20 30
3 10 - 20

Figura 20: Comparao de esquemas relacional X multidimensional para DWH

X Y Z
1 10 15 -
X Y Z
2 25 20 30
1 10 15 -
X Y Z
3 10 - 20
2 25 20 30
1 10 15 -
3 10 - 20
2 25 20 30
3 10 - 20

Figura 21: Dados multidimensionais - exemplo para 3 dimenses

Imagine agora que se queira acrescentar uma 3a dimenso, por exemplo, o cliente. As
vendas de cada cliente formariam uma matriz e assim teramos tantas matrizes quanto
forem os clientes. Assim, teramos o esquema da Figura 21. Isto d a ideia de 3a

62
dimenso como visto na imagem. Se for necessrio acrescentar mais dimenses (por
exemplo, vendedor), isto ser feito nas estruturas internas de armazenamento, pois no
ser possvel ao ser humano imaginar visualmente tal estrutura (4 dimenses).

Se olharmos melhor, esta imagem lembra a de um cubo, por isto, muitas vezes os dados
multidimensionais so tambm conhecidos como dados cbicos (ou sua representao
conhecida como cubo de dados).

A vantagem dos dados cbicos acelerar as anlises e dar respostas mais rapidamente
para usurios que tomam decises. Alm disto, a visualizao de dados em duas ou
mais dimenses ajuda a ver padres que so difceis de identificar em tabelas
normalizadas (flat).

Por exemplo, se tivermos uma base de dados sobre falhas que ocorreram em mquinas
numa empresa, provavelmente a estrutura ser similar que pode ser vista na Figura 22,
onde todos os atributos das falhas esto como colunas: identificao da mquina, setor
onde ocorreu a falha, quem era o operado no momento da falha, data e hora da
ocorrncia, tipo de problema que ocorreu, quantas horas a mquina ficou parada devido
falha, custo por hora da mquina parada e prejuzo total que a falha gerou,
multiplicando-se as horas paradas pelo custo-hora.

Neste tipo de estrutura, fica difcil verificar quais os problemas que mais ocorrem com
cada mquina, qual o total de falhas por operador, etc., especialmente se so muitas
falhas (muitas linhas ou registros).

Figura 22: Estrutura de dados flat - todos atributos como colunas

Por isto, uma estrutura multidimensional, como a apresentada na Figura 23, permite
mais rapidamente verificar padres. Na estrutura multidimensional, os atributos podem
aparecer como linhas ou colunas. Isto permite relacionar atributos entre si e encontrar
padres que no podem ser verificados nas estruturas unidimensionais (tipo "flat").

63
No exemplo da Figura 23, estamos relacionando duas dimenses: identificao da
mquina (nas linhas) X tipo de problema (nas colunas). Na figura, podemos ver o total
de falhas para cada mquina (ltima coluna direita), o total de falhas por tipo de
problema (ltima linha) e a quantidade de falhas para cada par mquina X tipo de
problema. Por exemplo, pode-se notar que ocorreram 51 registros no entroncamento da
linha da "empilhadeira" com a coluna de "falta peas", indicando que a mquina
Empilhadeira teve 51 falhas por falta de peas. Rapidamente tambm podemos notar
qual o tipo de problema mais comum relacionado a cada mquina.

Figura 23: Estrutura multidimensional - mquina X tipo de problema

Na Figura 24, estamos relacionando o operador com a hora em que a falha ocorreu.
Aqui a estrutura multidimensional permite visualizar que as falhas com o operador
Beltro s ocorrem s 9h da manh e que o operador Rudinei s teve falhas no incio do
dia (entre 7 e 8h da manh). Tambm pode-se notar que as falhas com o operador Joo
Maria ocorrem mais frequentemente de manh, enquanto que para Menezes e Otto as
falhas so mais frequentes tarde. A estrutura multidimensional tambm d uma viso
diferenciada das falhas que ocorreram com o operador Jos Carlos: elas ocorrem em
ambos os turnos, mas acontecem mais no incio dos turnos. Este tipo de anlise no
poderia ser feita com dados na estrutura flat.

Figura 24: Estrutura multidimensional - operador X hora em que ocorreu a falha

Para o caso de ser necessrio analisar mais de 2 dimenses, j que as telas de


computadores ainda no permitem visualizar dados em 3D, deve-se utilizar uma
visualizao 2D adaptada, como mostra a Figura 25, onde se pode ver que h 3
dimenses relacionadas: operador, tipo de problema e hora. Note que as dimenses (ou
atributos) operador e tipo de problema foram colocados nas linhas, formando uma
hierarquia.

64
Figura 25: Estrutura multidimensional - mquina + tipo de problema X hora

Figura 26: Anlise OLAP com somente uma dimenso

A anlise OLAP tambm pode ser feita com uma dimenso somente, como no caso da
Figura 26, onde h somente o atributo "tipo de problema" e a anlise feita pela soma
de horas paradas.

No link abaixo, h uma animao mostrando como fazer anlises multidimensionais


com tabelas dinmicas no software MS Excel:
http://www.youtube.com/watch?v=4hZN2YWKuy8

65
6 Interpretao dos resultados da anlise
Como discutido anteriormente, o processo de descoberta de conhecimento tem por
objetivo identificar conhecimentos novos e teis. Por outro lado, as tcnicas de Data
Mining e anlise OLAP apenas apresentam padres estatsticos, e isto no
conhecimento. Portanto, necessrio interpretar cada padro para poder extrair
conhecimento.

Por exemplo, no caso da anlise de pacientes com diabetes, onde se descobriu que 95%
dos pacientes com diabetes com tipo 1 tinham um determinado tratamento, no
novidade para quem j familiarizado com a rea. Entretanto, este padro evoca a
dvida sobre o que estaria acontecendo com os 5% dos pacientes que tm o mesmo
diagnstico e no esto recebendo o mesmo tratamento. Neste caso, o fato interessante
estava nas excees, e portanto ser necessrio investigar as excees e no a
normalidade para poder extrair conhecimento novo.

Em outros casos, talvez o conhecimento mais interessante esteja na conjuno entre dois
padres. Por exemplo, ao se descobrir (a) que 80% das mquinas da marca XYZ
quebravam com 3 anos de uso e (b) que 77% das mquinas desta marca eram operadas
por pessoas altamente experientes (mais de 10 anos no ramo), levanta-se a curiosidade
de saber qual o percentual para a conjuno dos 2 casos, ou seja, o que estaria
acontecendo com mquinas da marca XYZ com 3 anos de uso e operadas por
profissionais com mais de 10 anos de experincia. Ou ento, o interessante pode estar
em combinar um padro com o negativo de outro: o que acontece com as mquinas
XYZ com menos de 3 anos e operadas por pessoas com mais de 10 anos de experincia,
e o que acontece com mquinas XYZ com 3 anos e operadas por pessoas com menos de
10 anos de experincia.

Tambm pode ser necessrio realizar comparaes entre padres, como discutiremos
adiante. Um padro que aparea com 80% de probabilidade numa amostra e com 60%
de probabilidade em outra merece ser investigado (investigar o porqu da diferena).

Para entendimento dos padres, necessrio conhecimento sobre o domnio, o qual


pode no estar presente nos dados analisados. Por exemplo, o famoso caso da relao
entre fraldas e cervejas num supermercado, exigiu, para a interpretao das causas,
conhecimento sobre padres j conhecidos no supermercado mas que no estava
formalizado em algum meio fsico (estava s na cabea de algumas pessoas com
experincia no ramo, na forma de conhecimento tcito).

Desta forma, para a interpretao dos resultados importante ter algum com
conhecimento sobre o domnio, ramo, mercado ou especfico da empresa.

Alm disto, a interpretao dos padres identificados depende do contexto, ou seja, de


como tais padres foram identificados. Isto quer dizer que os padres se referem
somente amostra de dados analisada. Uma amostra pretende ser representativa de um
universo, mas ela nunca o de forma completa.

66
Outro cuidado que devemos ter que os dados so influenciados por eventos externos e
assim a interpretao dos resultados deve entender que eventos aconteceram ou esto
acontecendo. Por exemplo, no famoso caso da associao entre fraldas e cervejas, o tal
supermercado tomou atitudes aps esta descoberta. Ou eles colocaram os produtos
prximos ou colocaram bem longe. E isto deve ter influenciado o padro, aumentado
seu percentual ou talvez at acabando com ele. Ento o tal supermercado precisa refazer
o processo de anlise e comparar os novos resultados com os anteriores. A interpretao
no pode estar dissociada do tempo em que os fenmenos ocorrem e de seu contexto.

Um certo manual de investigao criminal aponta algumas falhas na interpretao de


dados, descritas a seguir:
Excesso de simplificao ou excesso de complicao: o perigo de assumir a
interpretao mais simples; ns seremos humanos temos tendncia, por preguia
mental ou falta de tempo, acolher como melhor alternativa aquela que mais
simples; por outro lado, quando as pessoas determinam que um problema
complicado, normalmente procuram solues complicadas; a dica comparar as
interpretaes possveis luz do contexto, sem se deixar influenciar por
simplificao ou complicao;
Erros de causa: como discutiremos adiante neste livro, encontrar causas uma tarefa
difcil em qualquer situao; muitas vezes falhamos ao estabelecer relaes de
causa-efeito; a presena de certos elementos com alta frequncia a certos tipos de
eventos conduz erroneamente as interpretaes para alternativas que no so
verdadeiras; adiante, teremos um captulo s para discutir relaes de causa-efeito;
Falsos dilemas ou dicotomias: quando nos concentramos em duas explicaes para
um fenmeno que so opostas; normal no ser humano considerar apenas frio-
quente, bom-ruim, perto-longe; mas existe o meio termo;
Amostras inadequadas: Nate Silver tambm descreve problemas com amostras
inadequadas; muito difcil conseguir coletar todos os dados teis ento acabamos
sempre ficando com uma amostra dos dados; este tipo de simplificao acaba nos
levando a resultados irreais; alguns exemplos sero dados ao longo deste livro.

6.1 Resultados condizem com a tcnica usada

Uso de tcnicas erradas ou dados pobres pode levar a concluses ou interpretaes


erradas. Por exemplo, a Figura 27 apresenta em vermelho o grfico de vendas (eixo y)
em um site de comrcio eletrnico ao longo do tempo (eixo x). Em azul, temos a mdia
de vendas neste perodo. O gerente deste site considerou baixa a mdia de vendas e
descontinuou as vendas pelo site. Entretanto, o que ele no notou que no momento em
que foi descontinuado o site, as vendas estavam no seu auge. Ou seja, se ele tivesse
usado a tcnica de tendncia, teria visto que as vendas estavam subindo e talvez fosse
bom esperar um pouco mais para ver o resultado final.

Este o mesmo tipo de anlise que feita quando se fala em aquecimento global.
Independente da discusso se a causa humana ou no, estatisticamente, est
comprovado que a mdia de temperatura anual no mundo todo est crescendo. Algumas
pessoas no acreditam nisto porque olham o inverno de um ano e verificam que ele foi
mais frio que o inverno do ano anterior. Sim, isto pode acontecer. Mas o que est sendo

67
medido so mdias por ano e levando em conta todas as medies pelo mundo todo.
Realmente, pode acontecer que, em algumas regies, a mdia pode ter baixado de um
ano para outro. Mas nem isto mesmo argumento contrrio. O filme de Al Gore, "Uma
verdade inconveniente", mostra claramente este grfico. E a tendncia de subida. Ou
seja, temos que usar a tcnica correta.

Com relao ao aquecimento global, muitos acreditam que estamos nos aproximando de
uma era de temperaturas altas. Entre os anos 1000 e 1200 d. C., tivemos uma poca com
mdia de temperatura 6 graus acima da mdia atual. Foi assim que os Vikings fizeram
fazendas na Groenlndia e chegaram at a Amrica. E isto pode estar novamente
acontecendo. Por outro lado, segundo alguns estudiosos, h tambm ciclos de eras
glaciais e possvel que estejamos a algumas dezenas de anos de uma pequena era do
gelo. Ento, talvez at este tipo de acontecimentos pode ser regido por padres. Mas
bom deixar claro que ainda no li nenhum estudo que comprovasse que h um padro.
Nate Silver conta que j tentaram encontrar padres
padres temporais ou sazonais em
terremotos e os resultados no foram bons, pois deixaram de prever os grandes que
aconteceram na Itlia em 2006 (LAquila) e no Japo em 2011 (Fukushima).

Bom, para completar um pouco a discusso e ver tambm o outro lado, a ONU divulgou
recentemente (em setembro de 2013) um relatrio apontando que uma das causas para
as mudanas climticas a ao do Homem sobre a natureza.

Figura 27: Mdia X Tendncia

Figura 28: Mdia de gastos de clientes num supermercado, por perfil

Voltando discusso sobre interpretao de resultados, eu queria discutir ainda um


outro exemplo de m interpretao. A Figura 28 apresenta a mdia de gasto para cada
tipo de cliente. Estes valores foram calculados assim: as vendas num supermercado

68
foram registradas em separado, tendo associado a cada uma delas um atributo
informando o tipo do cliente, ou seja, como ele veio ao estabelecimento (se sozinho,
acompanhado de amigos, se era um casal ou se era uma famlia com crianas). Depois,
o valor total de cada venda foi somado para cada tipo de cliente em separado e ento
feita a mdia (total por tipo dividido por nmero de carrinhos/vendas para cada tipo).
Nesta figura, podemos ver que a mdia de gasto do cliente tipo "sozinho" (ou seja,
pessoas que estavam desacompanhadas no momento da compra) era de 104 reais.

Por outro lado, temos a Figura 29, que apresenta o % de carrinhos em cada faixa ou
categoria de gastos (valores arredondados para mltiplos de 50). Nesta tabela, podemos
notar que 44,6% dos clientes do tipo "sozinho" gastam em torno de 50 reais e apenas
26,5% gastam perto de 100 reais. O que contradiz o valor resultante da figura anterior.

A causa para esta discrepncia que a mdia no leva em conta o desvio padro. Assim,
se uma pessoa sozinha fizer uma compra de 5 mil reais neste supermercado, vai
aumentar a mdia de gasto dos clientes deste tipo. Ou seja, os chamados "outliers",
valores que se distanciam muito da mdia, tambm acabam sendo contados. Ento, a
segunda tabela mais precisa em nos dizer a expectativa de gasto de cada tipo de
cliente.

Figura 29: Gastos de clientes num supermercado, por perfil, e classificados por faixa de gasto

6.2 Indicadores escolhidos para BI - certos ou errados

As ferramentas, tcnicas e softwares utilizados nos processos de BI apenas apresentam


os dados solicitados pelos usurios. A interpretao sempre humana. Como os
dashboards so criados por pessoas, muitas vezes eles podem estar apresentando
indicadores equivocados para uma determinada anlise ou tomada de deciso. Por
exemplo, muitas empresas criam um ranking de vendedores utilizando somente o
indicador de "soma de valores monetrios referentes s vendas feitas por cada
vendedor". Entretanto, muitas vezes, este indicador pode estar premiando quem no o
melhor vendedor. H outros indicadores que talvez tenham que ser levados em conta,
como por exemplo:

custos para realizar a venda: um vendedor X pode ter vendido 100 mil reais no ms
mas ter gerado um custo de 70 mil para a empresa (lucro de 30 mil), enquanto que o
vendedor Y faturou apenas 50 mil mas teve um custo de apenas 10 mil (lucro de 40
mil); ento a lucratividade talvez seja um melhor indicador;

69
tempo despendido: um vendedor talvez tenha faturado menos que outros porque
teve mais tempo de deslocamento ou porque teve que realizar mais tarefas
burocrticas; se ele tivesse o mesmo tempo para dedicar aos clientes em contato
direto, talvez pudesse ter o mesmo ndice de vendas;
nmero de clientes a visitar: muitas empresas determinam os clientes que os
vendedores devem visitar; o mais correto neste caso, seria avaliar a mdia de vendas
por cliente;
nmero de clientes novos: alguns vendedores acumulam tarefas de prospeco, ou
seja, precisam, alm de concretizar vendas, encontrar novos clientes; alguns
realmente conseguem conquistar novos clientes, mas que talvez no gastem to alto,
justamente por serem novos; mas estes novos clientes talvez sejam repassados para
outros vendedores no prximo ms e a as vendas futuras subsequentes sero
contabilizadas para outro vendedor;
desistncias de clientes: avaliar vendedores somente por pedidos feitos pode ser
perigoso se os pedidos no se concretizarem; da mesma foram, avaliar somente
pelas vendas concretizadas pode deixar de fora desistncias, principalmente quando
os pagamentos dos clientes so realizados a prazo; a inadimplncia dos clientes
tambm deveria ser somada (ou subtrada) aos respectivos vendedores.

Discusso similar ocorre na hora de determinar os melhores produtos para a empresa.


S levar em conta quantidade vendida no suficiente. O custo e o preo final tambm
interferem, ou seja, talvez seja melhor utilizar a lucratividade de cada produto.

O mesmo ocorre na hora de "rankear" clientes. Qual o melhor cliente: aquele que
compra todo ms e s gasta 100 reais por ms ou aquele que s vem uma vez por ano
mas gasta 3 mil reais ? Pela lucratividade, o segundo cliente melhor (cliente de maior
valor) mas o primeiro pode ser um "cliente de maior potencial", j que vem mais
seguido.

E o caso de quem compra 1000 pequenos produtos num supermercado (como sabonete,
pasta de dente, desodorante, etc.) totalizando 3 mil reais, melhor cliente que algum
que compra um eletrnico no mesmo valor total ? Para levar todos os 1000 produtos
talvez seja necessrio um caminho e vrias pessoas, mas para transportar o eletrnico
talvez um carro e uma pessoa sejam suficientes.

A concluso que os indicadores devem ser bem definidos, por quem realmente
conhece o negcio. Analistas de BI s devem gerar as anlises ou apresentaes. O BI
no culpado por apresentar dados equivocados; ele s apresenta o que solicitado.

6.3 Teoria do Mundo Fechado

comum entre analistas de dados e mesmo entre cientistas de diversas reas incutir no
erro conhecido como a Teoria do Mundo Fechado. Vejamos um exemplo. A Figura 30
apresenta o grfico de vendas de laranjas num supermercado ao longo do tempo (apenas
6 meses so mostrados). Nos 4 primeiros meses, o supermercado comprava do
fornecedor "vermelho". No 5o ms, trocaram para o fornecedor "azul", mas voltaram a
comprar do fornecedor "vermelho" no 6o ms. Pode-se notar que o nvel das vendas nos

70
primeiros 5 meses semelhante mas no 6o ms as vendas caram muito. De quem a
culpa ? Do fornecedor vermelho ou do azul ?

Uma resposta possvel culpar o fornecedor "vermelho". A explicao seria assim: os


clientes compraram as laranjas "azuis" e acharam de melhor qualidade que as laranjas
"vermelhas". Quando vieram ao supermercado no 6o ms, viram que havia voltado o
fornecedor "azul" e a no compraram no mesmo nvel.

Outra possibilidade culpar o fornecedor "azul". A explicao seria esta: os clientes


estavam acostumados s laranjas "vermelhas", e acabaram comprando as "azuis" no 5o
ms por acomodao, mesmo sabendo que era de outro fornecedor. Mas quando
provaram as laranjas azuis, no gostaram. Ento no voltaram a comprar laranjas neste
supermercado no ms seguinte (e o nvel das vendas no 6o ms caiu).

Figura 30: Venda de laranjas num supermercado

Estas explicaes funcionam se s tivermos estes dados disponveis. E assim que as


pessoas costumam tomar decises. Entretanto, h outras possibilidades de causas. Uma
delas a sazonabilidade, ou seja, sempre no 6o ms do ano as vendas de laranjas
diminuem. Se no tivermos dados dos anos anteriores, no vamos entender esta padro
e acabar culpando o fornecedor.

Outra explicao que no 6o ms o supermercado concorrente fez uma promoo de


laranjas e por isto as vendas diminuram no primeiro supermercado.
supermercado. Mas de novo sem
esta informao, acabaramos culpando fornecedores.

Isto acontece porque as pessoas s fazem anlises com os dados armazenados na


tecnologia (por exemplo, nos bancos de dados das empresas). Funciona como
esquematizado na Figura 31. Coletamos dados do mundo real atravs de diferentes
formas e os armazenamos em bancos de dados (tecnologia). As anlises so feitas sobre
estes dados armazenados. Os padres
padres encontrados nos dados so interpretados gerando
conhecimento novo. E a acreditamos que este conhecimento explica o mundo real. O
problema que o conhecimento s explica os dados armazenados. Como no exemplo
citado antes (vendas de laranjas no supermercado),
supermercado), se no temos todos os dados que
podem influenciar as anlises, acabamos chegando a concluses que no valem no
mundo real (condizem apenas aos dados armazenados).

Por isto, importante a etapa de preparao dos dados, para que todos os dados
relevantes para entendimento dos padres estejam disponveis para anlise.

71
aplicao

Conhecimento
observaes
coleta
interpretao

anlise
Figura 31: Teoria do Mundo Fechado

Entretanto, no h como coletar todos os dados; por isto, nosso mundo no fechado.
At o planeta Terra troca energia e matria com resto do Universo. E o acelerador de
partculas do CERN na Sua precisa de algum para ligar (e h sensores tambm).
Desta forma, temos que ter cincia de que os resultados das anlises dizem respeito to
somente aos dados analisados, isto , s amostras analisadas. O conhecimento
descoberto ento uma hiptese ou tendncia, que dever ser confirmada analisando o
mundo real ou atravs de tentativa e erro.

6.4 Correlaes erradas

O perigo da anlise de correo supor causas erradas para eventos. Por exemplo, anos
atrs os americanos achavam que o sorvete era causador da plio, porque os grficos
eram muito semelhantes; as vendas de sorvete e os casos de plio cresciam no vero. As
duas variveis tinham uma correlao estatstica, mas uma no era causa ou efeito de
outra (Levitt e Dubner, 2009).

Nate Silver, no livro O sinal e o rudo comenta diversos casos de correlaes erradas.
Um deles fala de uma pesquisa inglesa que concluiu que vacas com nome produziam
mais leite que vacas annimas. Na verdade, o fator que influenciava a produo era a
personalizao no cuidado com o animal. As vacas mais bem cuidadas recebiam nomes.
Desta forma, a produo era maior no pelo nome em si para pelo maior cuidado que
recebiam dos tratadores.

H tambm um caso famoso (citado em


http://epocanegocios.globo.com/Informacao/Acao/noticia/2013/08/jornalista-americana-
vira-suspeita-de-terrorismo-por-buscar-panela-de-pressao-na-internet.html), em que
uma jornalista americana se tornou suspeita de terrorismo. Aconteceu que ela fez vrias
buscas na Internet por panelas de presso, enquanto seu marido buscou mochilas no
mesmo perodo. E ainda por cima, seu filho leu diversas notcias sobre o atentado em

72
Boston, onde uma bomba foi feita com uma panela de presso e colocada numa
mochila.

Vrios casos de correlaes estranhas so listadas em


http://www.tylervigen.com/ e voc pode fazer a sua prpria escolhendo variveis.

Max Gunther (no livro O Fator Sorte) conta o caso de um sujeito que costumava tocar
clarim e abanar uma bandeira verde numa esquina, dizendo que servia para espantar
girafas. Quando perguntado se dava certo, ele respondia dizendo que nenhuma girafa
havia passado por ali.

Muitas vezes os padres podem dar certo talvez pelo efeito placebo: achamos que
vamos ter melhor rendimento usando certos padres ou supersties. A, repetimos o
padro e o resultado acontece como esperado. Neste caso, h relao entre duas
variveis mas uma no implica na outra. pura coincidncia ou sorte. como regular
sua alimentao e ver efeitos positivos, e ento acreditar que descobriu um novo
mtodo. E isto a vira sabedoria popular e vai passando de boca em boca. Como os
sacrifcios humanos para os deuses ou para ajudar na agricultura e clima (a civilizao
Maia fazia isto).

Outro engano tpico supor relaes de causa e efeito em variveis que possuem
comportamentos similares. A correlao existe porque os valores so similares ao longo
do tempo, mas no necessariamente pode haver uma relao entre elas. Por exemplo,
vendas de sorvete e vendas de mais aumentam no vero e diminuem no inverno, mas
uma varivel no implica na outra. Neste caso, h uma causa comum (a temperatura ou
estaes) que determina estes comportamentos mas no h relao direta entre os dois
tipos de vendas.

Muitas vezes, ocorrem coincidncias. Gunther tambm fala da Sincronicidade. Segundo


a Wikipedia, Sincronicidade " um conceito desenvolvido por Carl Gustav Jung para
definir acontecimentos que se relacionam no por relao causal e sim por relao de
significado. Desta forma, necessrio que consideremos os eventos sincronsticos no
a relacionado com o princpio da causalidade, mas por terem um significado igual ou
semelhante. A sincronicidade tambm referida por Jung de 'coincidncia significativa'
". Um exemplo o caso de um americano que lutou na Guerra da Coria e teve um filho
por l. Mas nem sabia disto. O filho foi trabalhar nos EUA e no sabia nada do pai, a
no ser seu nome. Um dia, aquele americano estava andando dirigindo pela estrada e
resolveu parar num restaurante que no costumava. Quando foi pagar em carto, o
atendente viu o nome e adivinhem: era seu pai. Uma grande coincidncia, uma
sincronicidade: tais eventos so comuns de ocorrer; o que determina sua relevncia
que aconteceu com pai e filho que no se conheciam.

Max Gunther, no seu livro "O Fator Sorte" diz que h duas leis estatsticas: (a) tudo
pode acontecer e (b) se algo pode acontecer, vai acontecer algum dia, pelo grande
volume de casos (por exemplo, cair 5 vezes o mesmo nmero na roleta em algum
cassino do mundo, algum dia).

Descobrir correlaes entre variveis fcil; h mtodos matemticos/estatsticos para


isto, inclusive nas planilhas eletrnicas. O problema saber se um fator determina outro
(implica em outro), ou seja, se h uma relao de causa-efeito entre duas variveis. Para

73
isto, precisamos separar as relaes que so estatsticas das que so coincidncia ou
acaso ou sorte. Este problema ser discutido mais adiante.

Alm disto, a correlao entre duas variveis pode perdurar por apenas um certo perodo
de tempo. Vejamos dois exemplos. Imagine uma fruta que s aparea no vero e que
seja quase impossvel guard-la numa cmera fria para ser comercializada no inverno.
certo que as vendas desta fruta sero maiores no vero. Se analisarmos a correlao
entre as vendas da fruta e a varivel "dias de vero", encontraremos uma forte relao.
Mas s neste perodo. O perigo generalizar para outras estaes.

Em outro exemplo, imagine que durante 10 anos as vendas de um certo produto infantil
estiveram fortemente correlacionadas com aparies de uma certa atriz em novelas,
programas de TV, noticirios, etc. Entretanto, esta atriz envelheceu, a moda mudou, as
crianas cresceram, e a correlao no enfraqueceu ou desapareceu. Ento, temos que
admitir que a correlao entre duas variveis pode ser forte mas talvez no dure para
sempre.

6.5 Sobrecarga e Rudos

Michael Lewis no seu livro Moneyball fala do perigo de estatsticas baseadas em


variveis que no interferem no resultado. No baseball, algumas estatsticas utilizam o
nmero de vitrias e derrotas para avaliar o desempenho de um jogador. Entretanto,
vitria ou derrota no dependem unicamente de um jogador. H diversos fatores alheios
competncia do jogador. Por isto, Lewis sugere que o melhor, neste caso, considerar
um grupo menor de caractersticas. No caso, foram escolhidos cinco requisitos: potncia
ao rebater, mdia de rebatidas, velocidade, fora do brao e alcance defensivo.

Alm de determinar corretamente quais fatores devem ser analisados, deve-se tambm
determinar pesos, ou seja, o quanto um fator mais importante que outro. No exemplo
do baseball, a potncia ao rebater muito mais importante do que a fora do brao e o
alcance defensivo na maioria das posies, exceto para as posies de shortstop e
receptor.

E por que utilizar um nmero reduzido de caractersticas ? Nate Silver comenta que
muitos analistas econmicos utilizam 4 mil variveis para fazer previses econmicas.
Muitas destas variveis so irrelevantes e confundem os resultados. O correto avaliar
quais fatores so os nicos ou os mais determinantes de um resultado.

Alguns autores falam da chamada causa-raiz, ou seja, separar as causas que realmente
levam a um determinado resultado. Por exemplo, uma empresa pode detectar que, para
aumentar a satisfao de seus clientes, precise diversos fatores tais como: tornar o
ambiente mais confortvel, baixar preos, fazer mais promoes e mais diversificadas,
melhorar o relacionamento do funcionrio com o cliente, etc. Entretanto, cada um destes
fatores pode ser conseguido atravs de subfatores. Por exemplo, para tornar o ambiente
mais agradvel, talvez seja necessrio ter uma melhor disposio dos produtos e uma
decorao mais atraente; para baixar preos e fazer promoes, talvez seja necessrio
que gerentes financeiros aprendam novas tcnicas; para melhorar o relacionamento na
loja, talvez seja melhorar a cordialidade do funcionrio e seu modo de abordagem ao

74
cliente. Bom, estes fatores parecem exigir uma qualificao melhor dos funcionrios. E
isto tudo exige orientaes e cursos para funcionrios. Desta forma, o fator-chave, a
causa-raiz talvez seja o treinamento dos funcionrios.

Sobre a anlise de causa-raiz, discutiremos mais adiante neste livro.

75
7 Processo de BI reativo

Normalmente o processo de BI (Business Intelligence) recebe como entrada solicitaes


para gerar como resultado indicadores quantitativos tais como nveis
nveis de venda, custos e
lucratividade (por produto, loja, vendedor, departamento, etc). Neste caso, o objetivo do
BI apresentar graficamente os indicadores e monitor-los, atualizando-os em tempo
real. Estes indicadores so tambm chamados KPI (Key Performance
Performance Indicators), um
termo que vem da metodologia de planejamento e gesto chamada BSC (Balanced
Scorecard).

Para apresentar tais indicadores, ento so utilizados os famosos DASHBOARDS, que


so painis visuais (como na Figura 32). Nestes painis, os indicadores so apresentados
de diferentes formas grficas (linhas, barras, mostradores, mapas, etc). O interessante
que os dados podem ser apresentados em diferentes granularidades
granularidades de tempo, ou seja,
por semana, ms, semestre, ano, etc, e os painis podem usar mostradores diferentes
para cada perodo (por exemplo, ano a ano). o que permite ao usurio comparar
indicadores temporais (ex.: comparar as vendas nos ltimos 5 anos, apresentando
indicadores ano a ano).

Figura 32: exemplos de dashboards

Tambm possvel comparar indicadores entre si. Por exemplo, analisar as vendas na
semana anterior ao Dia das Mes em comparao s vendas na semana anterior ao Dia
dos Namorados. Ou ento comparar a lucratividade de cada produto com o grau de
satisfao dos clientes em relao a cada produto.

Os indicadores podem ser apresentados como nmeros (ex. total de vendas), escalas
numricas ou nominais (ex.: bom, mdio, ruim, inclusive com cores tais como verde,
amarelo e vermelho), direcionais (ex.: setas indicando tendncia de subida ou descida
no nmero de clientes), mapas (ex: cores indicando nveis de venda por regio). Menos
comuns mas tambm teis podem ser representaes de variveis qualitativas, como por
exemplos as tag clouds (ex.: palavras mais frequentes nas reclamaes dos clientes).

76
Este tipo de abordagem pode ser considerada reativa, pois h uma entrada ou objetivo
bem definido e o analista de BI sabe exatamente o que procurar e o que apresentar para
o cliente.

A minha crtica a este tipo de processo de BI que ele apenas uma evoluo dos
antigos SIGs (Sistemas de Informaes Gerenciais) e dos EISs (Executive Information
Systems). A meu ver, o verdadeiro processo de BI deve procurar causas para o que est
acontecendo.

Deixemos claro que os SIGs tm seu valor pois ajudam a apontar qual o produto mais
vendido, em que pocas saem mais ou menos, qual o melhor vendedor, qual o setor que
mais gasta, etc. Mas o verdadeiro BI deve procurar encontrar o porqu de um produto
vender mais que outro, de sair mais numa poca que noutra, o porqu de um vendedor
ser melhor que outro.

A ento que entram as tcnicas de anlise multidimensional ou cbica (OLAP) e as


tcnicas de Data Mining. Mas o processo passa a ser um processo de descoberta, como
uma investigao ou pesquisa cientfica. Em outro captulo, metodologias para tal
processo sero abordadas.

Outra forma de fazer BI reativo analisando a organizao, conversando com clientes e


usurios e da ento definindo os indicadores. Isto acontece porque muitas vezes o
cliente no sabe exatamente o que deve monitorar. Ele tem objetivos ou preocupaes
(aumentar vendas, diminuir custos, reduzir reclamaes de clientes, etc) mas no sabe
bem por onde comear. A o trabalho do analista de BI procurar entender que tipo de
informaes seriam teis para o gestor atingir seus objetivos. Neste caso,
conhecimentos prvios do analista sobre a empresa podem ajudar mas tambm
informaes do ramo (por exemplo, coletadas por benchmarking).

77
8 Metodologia para BI proativo
Agora vamos falar de BI proativo, uma abordagem no muito comum. Neste caso, a
entrada puramente uma base de dados. O cliente no diz o que est querendo, quais
seus objetivos ou problemas, mas apenas informa que deseja encontrar algo interessante
nos dados. Este paradigma seria bem representado pela seguinte questo: "o que h de
interessante nos meus dados ?".

Neste tipo de abordagem, o objetivo no est bem definido. Ele existe (encontrar algo
til e novo), mas no est claro ou bem detalhado. Isto funciona como uma busca
exploratria, onde o analista est procurando encontrar coisas interessantes, sem bem
saber por onde ir ou como fazer isto. E no h hipteses iniciais; o objetivo justamente
tentar descobrir hipteses para poder depois testar.

Em geral, a falta de hipteses iniciais se d porque o usurio ou cliente no consegue


definir exatamente o que est procurando. Ele sabe que tem um problema, mas no tem
uma ideia exata do que pode ser a soluo. o caso tpico de monitorar alguma situao
ou encontrar algo de interessante que possa levar a investigaes posteriores. Depois
que hipteses so levantadas, o processo pode seguir como no paradigma reativo. Por
exemplo, o cliente sabe que h funcionrios desmotivados mas no sabe a causa. Ou
ento um gerente que sabe que as vendas caram mas no sabe onde procurar as
explicaes. Ou um diretor que descobre que uma de suas filiais est muito abaixo da
mdia de vendas e no sabe por onde comear sua investigao. Para estes casos, a
abordagem proativa deve ser utilizada.

Um dos problemas do paradigma proativo definir um plano de uso das tcnicas ou de


como a coleo de dados dever ser analisada, a fim de serem descobertas hipteses.
Kuhlthau (1991) determinou seis fases em processos de descoberta de informao:
iniciao, seleo, explorao, formulao, coleo e apresentao. Cada fase
caracterizada por atitudes diferentes do usurio (por exemplo, em relao a sentimentos,
pensamento, aes e tarefas). Uma das descobertas mais interessantes desta
pesquisadora que o usurio inicia procurando algum tipo de conhecimento mais geral,
depois ele procura informao relevante em grupos mais restritos e termina procurando
informaes mais focadas ou especficas. Durante este processo, o usurio reconhece,
identifica, investiga, formula, rene e complementa o conhecimento.

Infelizmente no existe uma mquina de induo, como discutido por Popper, seno
seria fcil para analistas de BI, gerentes, etc. A ideia da tal mquina seria que ela
aprendesse automaticamente as leis vigentes no universo observando os fenmenos da
natureza e da generalizando comportamentos. Mas como ela no existe (pelo menos
ainda), ento cabe aos seres humanos fazerem tal processo de investigao e descoberta.

Sugere-se a seguir uma estratgia para anlise proativa de dados. No se pode


considerar esta estratgia uma metodologia, mas sim um esboo (framework), que
poder conduzir os analistas no processo, indicando os passos principais (tcnicas ou
ferramentas a serem usadas). Os passos so resumidamente descritos a seguir.

78
8.1 Seleo de dados e amostras

Como j foi discutido anteriormente neste livro, no captulo sobre preparao dos
dados, o primeiro passo gerar amostras (mais de uma). Pode-se considerar a base toda
como uma amostra, mas certamente devemos tambm criar subgrupos.

8.2 Seleo da tcnica de anlise

Uma forma de fazer um processo proativo utilizar tcnicas de Data Mining prprias
para tal. As tcnicas j foram discutidas anteriormente. O problema agora saber qual
tcnica utilizar. Quando apresentamos as tcnicas, discutimos algumas formas de
aplicao. Se tivermos algumas hipteses iniciais ou se tivermos um problema bem
definido, fica fcil saber que tcnica usar. Mas num processo proativo os parmetros
iniciais para se definir que tcnica usar justamente o que est faltando.

Neste caso ento, podemos seguir pelo processo de tentativa e erro, usando uma tcnica
de cada vez e analisando seus resultados para gerar hipteses iniciais. A escolha do tipo
de tcnica depende do tipo de dados que temos.

H valores nominais ou categricos (ex.: bairro, cidade, profisso, sexo) e numricos


discretos (idade, renda, totais). Os valores numricos discretos podem ainda ser
categorizados por faixas de valor (pelo processo de discretizao). Neste caso, podemos
usar a tcnica de associao pode ser usada para procurar relaes entre variveis. Foi
com este tipo de tcnica e uma abordagem proativa que o Walmart descobriu que quem
comprava cerveja na 6a-feira tambm comprava fraldas (a famosa lenda do Data
Mining).

Outra forma de encontrar relaes entre variveis utilizar a tcnica de correlao ou a


tcnica de modelos de predio. A primeira indica se h uma relao entre duas
variveis e qual a fora desta relao. A segunda gera uma funo matemtica que possa
relacionar os valores das variveis sendo analisados. Note que a primeira tcnica exige
duas variveis, enquanto que a segunda pode ser aplicada a muitas variveis ao mesmo
tempo. claro que, para utilizar estas tcnicas, ou as aplicamos a todas as variveis e
combinaes existentes ou possveis, ou fazemos uma seleo, como discutido em
captulo anterior.

As tcnicas de mdia e deteco de outliers tambm so simples de serem utilizadas e


podem ser aplicadas sobre cada varivel em separado (uma por vez).

J a tcnica de anlise de sries temporais exige trabalhar sobre uma varivel com
valores contnuos ao longo do tempo (um valor para cada unidade de tempo, no
podendo haver falta de valores num certo perodo).

A tcnica de sequncia de tempo exige trabalharmos sobre eventos discretos


(acontecimentos), que estejam ordenados cronologicamente.

79
A tcnica de classificao no pode partir do nada, pois exige algum esquema de
classificao prvio. Mas as tcnicas de clustering e induo podem ser usadas para
gerar as regras de classificao.

J dados temporais (ex.: ano, ms, dia da semana, turno, hora) podem ser utilizados com
valores discretos ou contnuos.

8.3 Anlise da coleo toda

Neste ponto, o analista deve decidir se ir aplicar as tcnicas de descoberta sobre todos
os dados ou sobre partes da base; a sugesto que se comece analisando toda a base e
depois sejam examinados subconjuntos. Em alguns casos, nada de interessante
encontrado na coleo toda, o que leva o usurio, necessariamente, a investigar
pequenas subcolees.

8.3.1 Analisar percentual ou valores absolutos

Admitindo que vamos analisar cada atributo em separado, vamos ter informaes
estatsticas sobre os valores que aparecem associados a este atributo. A frequncia de
cada valor pode ser apresentada como um valor percentual ou valor absoluto. Por
exemplo, analisando o atributo "cidade" numa base de clientes, podemos ter cada cidade
apresentada com sua frequncia absoluta na base (nmero de registros em que aparece
cada nome de cidade) ou apresentada por percentuais (ex.: a cidade de Bag aparece em
23% dos registros).

O valor percentual bom para saber quem predomina num conjunto (os famosos
grficos em pizza). J o valor absoluto serve para comparar um valor com ele mesmo,
em perodos de tempo diferentes. Por exemplo, quantos registros eram de Bag na
medio anterior em comparao frequncia atual.

Ambos os valores so interessantes para saber quem est subindo, quem caiu, quem est
surgindo, etc. Entretanto, se o conjunto (nmero de elementos) aumenta, o valor
absoluto no permite saber a relao com outros valores (

Por exemplo, uma empresa notou que reclamaes sobre um produto XYZ haviam
diminudo em nmero absoluto, mas em valores percentuais em relao ao conjunto
todo, o valor aumentou. Isto significa que as reclamaes realmente perderam fora,
mas que agora este produto era um dos principais em termos de reclamaes. A empresa
ento mudou o foco para este produto, tentando diminuir as reclamaes sobre ele (e
com isto, tendo como consequncia a diminuio do total geral de reclamaes).

Lembrando que podemos estar falando de atributos de produtos, empresas, clientes ou


outros tipos de atributos como forma de pagamento, ms ou dia, sexo, etc.

8.3.2 Soma X Contagem X Mdia

80
Nate Silver conta de uma piada onde um estatstico afogou-se num rio que tinha, em
mdia, 1 metro de profundidade. Ou seja, havia partes mais rasas e outras bem mais
fundas.

J comentamos sobre enganos com a mdia (Figura 27 e Figura 28). Continuemos com
este exemplo, das vendas em um supermercado. A Figura 33 apresenta o total de
carrinhos (ou vendas ou notas fiscais) para cada perfil de cliente (dentro de uma
determinada amostra). Note que os carrinhos de "famlias" so menos da metade dos
carrinhos de pessoas "sozinhas".

Figura 33: Anlise de vendas, utilizando contagem de registros

Figura 34: Anlise de vendas, utilizando soma de valores

Para a mesma amostra, a Figura 34 apresenta a soma de gastos de cada perfil. Agora
podemos ver que a diferena diminui. Isto porque famlias gastam mais (o que pode ser
visto na Figura 28).

A concluso que devemos utilizar diferentes tcnicas e comparar os resultados. No h


uma tcnica melhor que outra. As tcnicas existem para apresentar pontos de vista
diferentes. O melhor saber escolher a melhor tcnica para cada objetivo ou problema.
Se no souber qual a melhor, utilize vrias e compare os resultados.

81
No exemplo dado, a contagem de carrinhos permite descobrir que a maioria dos clientes
vm sozinhos ao supermercado. J a mdia de gastos permite ver que famlias gastam
mais que os demais perfis. E a soma de gastos pode nos dizer qual o tipo de cliente que
mais impacta na receita.

8.3.3 Percentual por linha X por coluna

A Figura 35 abaixo apresenta pedidos de produtos por cidade e por dia da semana. Os
valores foram definidos pelo percentual da linha, ou seja, mostra a proporo com que
os pedidos foram feitos em cada dia da semana, mas dentro de cada cidade (por isto os
100% esto no total da linha). Este tipo de anlise permite descobrir qual o dia da
semana com mais incidncia de pedidos dentro de cada cidade.

Por exemplo, podemos notar que, na cidade de Uruguaiana, a maioria dos pedidos
feita na 3a-feira, enquanto que na cidade de Itaqui os pedidos predominam na 5a-feira e
j na cidade de Bag h um empate entre 4a e 5a-feira. Tambm podemos notar que a
nica cidade que tem predominncia na 2a-feira a cidade de Dom Pedrito.

J a Figura 36 apresenta os valores percentuais mas por coluna. Isto significa separar os
pedidos de cada dia da semana entre as cidades, para ver a proporo dos pedidos entre
as cidades (100% est no total da coluna). Isto permite verificar, por exemplo, que na
6a-feira a cidade onde mais so feitos pedidos a cidade de Uruguaiana (apesar de este
no ser o dia de mais pedidos nesta cidade).

Cidade 2a-feira 3a-feira 4a-feira 5a-feira 6a-feira Total


Bag 18,2% 21,2% 22,7% 22,7% 15,2% 100,0%
Alegrete 19,4% 22,2% 19,4% 16,7% 22,2% 100,0%
Uruguaiana 16,9% 26,8% 16,9% 18,3% 21,1% 100,0%
Itaqui 16,0% 18,0% 20,0% 24,0% 22,0% 100,0%
Marau 20,0% 20,0% 24,0% 20,0% 16,0% 100,0%
Dom Pedrito 24,4% 17,1% 19,5% 22,0% 17,1% 100,0%
Figura 35: Valores percentuais por linha

Cidade 2a-feira 3a-feira 4a-feira 5a-feira 6a-feira


Bag 22,2% 22,6% 25,9% 25,0% 18,2%
Alegrete 13,0% 12,9% 12,1% 10,0% 14,5%
Uruguaiana 22,2% 30,6% 20,7% 21,7% 27,3%
Itaqui 14,8% 14,5% 17,2% 20,0% 20,0%
Marau 9,3% 8,1% 10,3% 8,3% 7,3%
Dom Pedrito 18,5% 11,3% 13,8% 15,0% 12,7%
Total 100,0% 100,0% 100,0% 100,0% 100,0%
Figura 36: Valores percentuais por coluna

Os 2 tipos de anlise de percentuais, tanto por linha quanto por coluna, so importantes,
pois cada um mostra um padro diferente.

82
Aqui mostramos o exemplo de vendas por cidade e dia da semana. Mas imagine ter uma
base de clientes e cruzar dados como faixa etria (linhas) X bairro (colunas). Podemos
fazer o percentual por linha e analisar em que bairro predomina cada faixa etria (por
exemplo, jovens esto mais localizados no bairro Praia enquanto que 3a idade est mais
no bairro Centro). Ou ento fazer o percentual por coluna e assim saber qual a faixa
etria que predomina em cada bairro (por exemplo, no bairro XYZ predominam jovens,
enquanto que no bairro KLM predominam adultos).

Na amostra do supermercado, extramos o total de carrinhos que tm algum tipo de


brinquedo e classificamos por perfil. O resultado est na Figura 37. Podemos notar que
pessoas sozinhas compram mais brinquedos (inclusive que as famlias).

Contar de brinquedos
Acompanhado Total
amigos 3
casal 2
familia 19
sozinho 25
Total geral 49
Figura 37: total de carrinhos com brinquedos - por perfil

Entretanto, devemos lembrar que h mais clientes com perfil "sozinho" e isto gera uma
tendncia. Por isto, fizemos outra tabela, apresentada na Figura 38, onde podemos ver
duas colunas referentes a brinquedos: uma que indica o nmero de carrinhos que tinha
algum brinquedo (valor 1) e os que no tinham brinquedos (vazio).

Para facilitar a comparao, a mesma tabela foi reformatada para apresentar valores
percentuais (por linha), como est na Figura 39. Agora pode-se ver mais claramente que
12,5% das famlias compra brinquedos enquanto que apenas 7,06% das pessoas
sozinhas compram brinquedos.

Contar de CD brinquedos
Acompanhado 1 (vazio) Total geral
amigos 3 121 124
casal 2 136 138
familia 19 133 152
sozinho 25 329 354
Total geral 49 719 768
Figura 38: carrinhos com ou sem brinquedos - valor absoluto

Contar de CD brinquedos
Acompanhado 1 (vazio) Total geral
amigos 2,42% 97,58% 100,00%
casal 1,45% 98,55% 100,00%
familia 12,50% 87,50% 100,00%
sozinho 7,06% 92,94% 100,00%
Total geral 6,38% 93,62% 100,00%
Figura 39: carrinhos com e sem brinquedos - % por linha

83
8.3.4 O que predomina

Uma tendncia nas anlises estatsticas procurar por valores que predominam. Por
exemplo, numa base de vendas, encontrar o vendedor que mais vende, o produto que
mais vende, a poca em que um produto mais sai, etc. Ento a tcnica procurar por
valores predominantes em cada atributo.

Outra possibilidade separar um subgrupo de registros com o valor que predomina (por
exemplo, cidade com maior frequncia entre os clientes) e a analisar somente estes
registros (clientes de uma determinada cidade). Isto nos permitiria descobrir
predominncias dentro de cada atributo. E isto pode ser feito em vrios nveis
consecutivos.

Exemplo de uma estratgia de anlise de predominncia:


a) selecionar clientes da cidade que mais predomina;
b) analisar valores de um atributo especfico (ex.: forma de pagamento), dentro deste
subgrupo;
c) separar os registros do valor que mais predomina (ex.: pagamentos por carto);
d) voltar ao passo (b) e selecionar outro atributo, mas utilizando o subgrupo do item (c).

8.3.5 O que mais importante: o que raro ou o que comum ?

Em Business Intelligence (BI), ambos so importantes. Encontrar um padro que seja


muito frequente timo. Por exemplo, um supermercado descobrir que a maioria das
pessoas compra feijo na 3a-feira (hipottico). Ou um engenheiro descobrir que 90%
das causas de quebra nas mquinas devidos a mau uso delas. Isto permitir a estas
organizaes melhorarem suas estratgias de marketing, investimentos, produo,
logstica, estoque, vendas, compras, etc. por isto que uma pessoa que queira
compreender um assunto novo ir procurar os livros ou artigos mais citados dentro desta
rea.

Por outro lado, imagine se o supermercado descobrisse que tem gente comprando feijo
no domingo e so uma minoria, talvez duas ou trs pessoas. O que isto tem de
interessante ? E se o engenheiro descobrir que 1% das quebras so devido a uma nica
pea ? E se uma pessoa descobrir um livro raro, nunca antes lido ? Ou algum livro
publicado, mas pouco vendido ou citado ?

Primeiro, o valor da descoberta pode estar associado ao retorno do investimento (ROI),


ou seja, o quanto a informao pode gerar resultados financeiros para a empresa. Por
exemplo, aquele 1% de quebras que pode ser evitado ao se descobrir a pea defeituosa
pode poupar muito dinheiro para a empresa.

Segundo, algumas raridades de padres podem suscitar hipteses para novas teorias. No
caso do supermercado, talvez seja interessante fazer campanhas para as pessoas
comprarem feijo no domingo e fazerem feijoada em casa na 2a-feira com os restos do
churrasco do domingo. Pode ser um novo padro, ainda adormecido (que precisa ser
despertado). Talvez o padro no seja muito frequente por falta de estmulos. As
fbricas de cerveja j descobriram que muitas mulheres bebem cerveja, apesar de serem

84
a minoria. Mas as propagandas so todas machistas. Ento pode estar a uma nova
oportunidade de promoo. So os chamados Nichos de mercado, a estratgia do
Oceano Azul. Steve Jobs no perguntou se as pessoas queriam um iPad. Ele fez e foi o
maior sucesso.

Terceiro, mas no esgotando as possibilidades, o que raro pode fazer uma enorme
diferena no mundo competitivo. Saber o que ningum mais sabe, pode ser uma
vantagem econmica (veja os investidores nas Bolsas de Valores). H uma lenda de um
ingls que ficou sabendo, durante a guerra entre Inglaterra e Frana, que a Inglaterra iria
vencer. Ento ele voltou s pressas para seu pas e comeou a vender tudo o que tinha.
As pessoas, sabendo que ele voltava do campo de batalha, tambm comearam a vender
tudo, achando que a Inglaterra tinha perdido. A ele ento passou a comprar tudo por
baixssimos preos.

Agir de forma diferente pode chamar ateno (produtos personalizados, novos estilos de
moda). O novo gnio do xadrez, o noruegus Magnus Carlsen (o "Mozart do Xadrez")
no usa tcnicas usuais. Todos grandes jogadores conhecem todas as estratgias. Ento
o noruegus costuma fazer algo inesperado, fora dos padres, e isto desconcerta os
adversrios, que no entendem o padro, no conseguem prever as prximas jogadas e
ficam nervosos. Foi assim que ele deixou nervoso o grande campeo Gary Kasparov.

Na batalha por segurana de informao, para impedir invases de sistemas


computacionais, analistas de segurana com softwares de Data Mining procuram
padres. Mas uma ao nova pode ser uma nova estratgia de ataque.

Por isto, processos de BI devem procurar padres com alta frequncia ou probabilidade
estatstica, mas os analistas de BI devem tambm estar atentos a momentos raros,
eventos pouco frequentes.

8.3.6 Investigar padro normal e excees ou minorias

Uma variao da estratgia descrita no item anterior, seria analisar valores minoritrios
ou separar um subgrupo de registros com valores que menos aparecem. No caso de
valores numricos, os valores minoritrios (outliers) podem ser os valores acima ou
abaixo da mdia ou intervalo mdio. Por exemplo, se temos uma base de clientes com
mdia de idade num intervalo entre 20 e 60 anos, poderamos analisar a minoria que tem
idade abaixo de 20 ou acima de 60.

Como discutido anteriormente, a anlise de excees ou minorias pode ajudar a


encontrar hipteses de novos conhecimentos. Excees podem alertar para novos
padres ou especializaes dos padres existentes. Por exemplo, num caso de anlise de
pacientes com diabetes, foi descoberto um padro: 95% dos pacientes que tinham o tipo
1 de diabetes estavam recebendo o mesmo tratamento. Um especialista no viu nada de
interessante neste padro, pois o procedimento normal. O interessante estava
justamente com os 5% que eram exceo, ou seja, que tinham o mesmo tipo de diabetes
mas no tinham o mesmo padro de tratamento.

Outro caso interessante de anlise de minorias ou excees (outliers) aconteceu numa


revenda de carros. A revenda, analisando dados de seus clientes, relacionou

85
estatisticamente o perfil do cliente com o tipo de carro adquirido. O perfil inclua tipos
como mulheres jovens, casais, jovens homens solteiros, etc.

Quando uma exceo ocorre, por exemplo um jovem homem solteiro comprando um
carro tipicamente de casais, isto chama ateno, mas ningum costuma investigar pois
uma exceo. Entretanto, este caso isolado pode ser uma hiptese para novo tipo de
comportamento, quem sabe levantando a possibilidade de novas propagandas para atrair
novos pblicos.

Outro caso interessante aconteceu num site de comrcio eletrnico que descobriu que
havia muitos homens comprando chapinha (para alisar cabelos). Apesar de ser uma
minoria que faz isto (a grande maioria dos clientes que compra chapinha de mulheres),
o site resolveu investigar o caso. Constatou-se que eles estavam comprando para
presente, mas isto no ficava explcito na hora da compra. Este tipo de informao pode
at influenciar de forma errada as campanhas de marketing e os sistemas de
recomendao que traam perfis de clientes. O site ento inclui uma opo para o
cliente poder dizer que estava comprando para dar de presente (e no era para uso do
prprio cliente). O mais interessante entretanto que o site passou a gerar campanhas
no dias dos namorados para homens comprarem o tal produto para darem de presente
para suas namoradas (e a campanha trouxe bons resultados).

Em vrias situaes, as excees so at mais importantes que a regra. Numa


investigao criminal, o fato de haver somente uma ligao entre um suspeito e outra
pessoa (um possvel cmplice) pode ser mais til que o caso de o mesmo suspeito ter
feito diversas ligaes para uma mesma pessoa (por exemplo, um familiar).

Um modo de observar com mais detalhe os chamados outliers tentar relacion-los


com eventos do mundo real. Os picos (subida ou descida) em valores numricos, como
por exemplo os valores extremos em grficos de vendas, podem ser indicativos
importantes para se entender por que as vendas subiram ou cairam tanto. Neste caso,
notcias publicadas ou eventos ocorridos no mesmo perodo (mesmo dia ou dia anterior)
podem ajudar a explicar o ocorrido. O ideal seria analisar se tais correlaes ocorrem
mais vezes, para evitar analisar coincidncias ou sincronicidades.

8.3.7 Qual probabilidade mnima interessante

Se encontramos um padro estatstico, como vamos saber se ele interessante ou no ?


Um padro com probabilidade acima de 90% certamente interessante. Mas pode no
ser novo (como o caso do diabetes, relatado antes).

E uma probabilidade de 80% ? E de 70% ? No caso de um valor aparecer em 50% dos


registros, isto pode ser interessante, se forem vrios valores (por exemplo, cidade do
cliente num site de comrcio eletrnico que vende para todo o Brasil). Mas se
estivermos falando do atributo sexo, 50% no interessante porque se espera
justamente esta diviso num conjunto normal de pessoas.

A sugesto comear procurando por padres com alta probabilidade (para no gerar
muitos resultados) e depois ir diminuindo. Um valor mnimo ideal no existe. Se houver

86
um atributo que no tenha um valor com alta frequncia (por exemplo, que no aparea
em 40% ou mais dos registros), ento a probabilidade de 30% pode ser interessante.

Alm da probabilidade, importante ficar atento ao chamado suporte (nmero de


registros onde o padro ocorre). Por exemplo, uma empresa descobriu um padro que
dizia que 100% (probabilidade) dos distribuidores de uma mesma cidade estavam
atrasando 10 dias o pagamento. O problema que s havia um distribuidor nesta cidade,
ou seja, 100% se referia a uma nica empresa.

Eu costumo usar o seguinte caso como piada e exemplo: um supermercado descobriu


que 100% dos clientes que compravam sapatos de tamanho 48 tambm compravam o
xampu de abacate. Ao saber disto, o pessoal de marketing j comeou a pensar em
campanhas para aumentar este tipo de venda cruzada. Entretanto, a regra aparecia
somente num caso (suporte = 1), ou seja, era somente um cliente que tiha este
comportamento.

8.3.8 Medidas de Interestingness

O interessante, em geral, o evento inesperado, que contradiz as expectativas. Pode ser


um padro (ordem) para a maioria dos casos ou simplesmente algo que sai do padro,
como uma exceo.

Descobrir que a maioria dos clientes de um supermercado compra em mdia 2 kg de


feijo interessante. Mas tambm interessante observar quem est comprando abaixo
ou acima disto. O que sai da mdia, o que est fora do previsto, tambm pode ser
interessante.

Para tanto, precisamos de um sistema de crenas, com conceitos bsicos ou primitivos


ou atmicos que formem um senso comum (ou conhecimento comum ou ordinrio).
Alguma coisa que, quando solta no ar, sobe contradiz nossos conhecimentos sobre
gravidade. Isto algo interessante que merece ser investigado.

Os povos so cheios de crenas populares e supersties (sabedoria popular). Isto


poderia ser incorporado num sistema de crenas, para ajudar a descobrir contradies ou
excees. Ou ento a empresa poderia gerar um conjunto de regras de negcio e
comparar com padres encontrados em seus dados. Por exemplo, houve o caso de uma
empresa de BPM (Business Process Management) que aplicou Data Mining em nas
medies de processos. Ela descobriu uma sequncia muito frequente de tarefas que ia
contra suas regras de negcio. Ela admitia excees em alguns processos, mas a
exceo ser mais frequente que a regra, isto sim era interessante.

Geng e Hamilton (2006) prope 9 critrios para determinar se um padro interessante


ou no. A vo eles:

conciso: um padro que trata de poucos atributos mais interessante porque mais
fcil de ser entendido; por exemplo, o que se entende uma regra que diz que 89%
dos clientes que compram refrigerante, carne, salada e leite num supermercado,
tambm compram queijo ? Agora, se a regra for 89% dos clientes que compram
presunto tambm compram queijo, a fica mais fcil de se entender o padro e
tomar algumas atitudes;
87
cobertura ou generalidade: um padro geral se cobre um conjunto grande de
dados; o caso contrrio da exceo como j discutido antes;
confiabilidade: um padro confivel se tem suporte maior, ou seja, se ocorre com
alta frequncia ou percentual (em grande parte dos casos);
raridade: um padro interessante se se distancia muito dos demais padres ( caso
das excees);
diversidade: um padro que trata de atributos bem diferentes dos que so tratados
em outros padres considerado diverso e por isto tem um certo grau de
importncia;
novidade: se um padro no puder ser inferido de outros padres, ento ele
interessante;
surpresa: o caso j comentado de contradizer as crenas ou expectativas;
utilidade: til se contribui para alcanar um objetivo;
aplicabilidade: se ajuda em alguma tomada de deciso ou em aes futuras.

claro que o primeiro objetivo do processo de BI encontrar padres, no importando


de que tipo. O problema que geralmente um grande nmero de padres surgem como
resultado, dificultando separar os mais interessantes e consequentemente dificultando a
anlise e descoberta de conhecimento til. Por isto, as tais medidas de interestingness
podem ajudar a filtrar resultados. E isto pode ser feito com auxlio automtico de
ferramentas de software.

8.4 Comparao de subcolees entre si ou em relao coleo toda

Como discutido antes, a separao da base de dados pode ser feita em subconjuntos
associados a aspectos temporais (por ano, ms, bimestre, semana, dia da semana) ou ,
separando os fatos (vendas, clientes, produtos, pedidos, etc) por alguma caracterstica
ou atributo.

A granularidade ou unidade temporal a ser utilizada para extrair amostras ou separar a


base de dados importante pois ir influenciar nos resultados. Por exemplo, pode-se
separar uma base por ano, ms ou dia. Os padres encontrados sero condizentes com a
unidade de tempo definida. Se dividirmos uma base de fatos por ano e encontrarmos um
padro em um determinado ano, no se sabe se este padro ir acontecer durante todos
os meses deste ano. Sendo assim, talvez tenhamos que analisar ms a ms e a
poderemos saber se o padro acontece em todos os meses, ou na maioria ou em somente
alguns. Por isto, pode ser til separar a base por turno e no por dia semana, para se
observar padres que acontecem somente de manh ou somente de noite.

A comparao entre grupos fica mais fcil de ser feita quando as amostras dizem
respeito a perodos de tempo. Assim, pode-se comparar vendas entre os meses do ano,
ou reclamaes a cada ano e entre eles. Isto permite acompanhar as mudanas nos
padres ao longo do tempo e identificar tendncias (de queda ou subida), ou mesmo
encontrar um padro que acontea a cada X anos (por exemplo, vendas de TV tm seu
pico a cada 4 anos, coincidindo com os anos em que h Copa do Mundo de Futebol).

Os critrios para separar a coleo em grupos pode ser qualquer um e no somente o

88
tempo. Por exemplo, podemos trocar tempo por espao e assim comparar padres em
regies geogrficas diferentes. Ou at mesmo combinar vrios atributos. Por exemplo,
comparar doenas entre pases de hemisfrio Sul e Norte a cada ano.

Cada grupo ou amostra pode ser analisado separadamente, mas o interessante poder
comparar os padres encontrados para cada grupo (internamente) com os padres de
outros grupos ou mesmo com o padro da coleo toda.

Por exemplo, um processo de anlise de reclamaes de clientes de uma empresa de TV


por assinatura dividiu os clientes (e seus reclamaes) por perfil (plano adquirido) e por
tipo de programao preferida (pelo canal mais assistido). Esta separao, e a posterior
comparao dos padres entre os grupos, permitiu descobrir que os clientes que mais
reclamavam do custo do servio eram os que tinham o plano mais barato. Da mesma
forma, os clientes que menos reclamavam da programao de filmes eram os que
tinham como canal preferido algum de filme (os que mais reclamavam dos filmes
preferiam notcias ou esportes).

A comparao de padres entre subcolees pode ser feita avaliando o que predomina
em cada subgrupo ou ento buscando saber a probabilidade (ou frequncia) de cada
padro em cada subgrupo. Podemos descobrir que um padro aparece com
probabilidade de 90% num subgrupo e com apenas 50% noutro. Ou ento podemos
verificar o tipo de valor para um determinado atributo que predomina em cada
subgrupo. Por exemplo, podemos descobrir que num subgrupo h mais homens e noutro
mais mulheres, ou ento ficar sabendo que a faixa etria predominante num subgrupo
de jovens enquanto que em outro subgrupo predomina a faixa etria mais velha.

Isto significa tomar cada atributo e avaliar os padres encontrados para cada um deles
em cada grupo e a comparar os resultados entre os grupos.

Outra possibilidade descobrir regras de associao (ex.: Se cliente do sexo X, Ento


valor gasto est na faixa Y) e a comparar a probabilidade da regra em cada subgrupo.

Mas tambm podemos comparar os padres encontrados em cada grupo com o padro
da coleo toda. Por exemplo, pelo Google Trends, comparamos as buscas pelos termos
"dengue" e "gripe A", feitas no Brasil todo, com buscas originadas no Rio Grande do
Sul, sobre os mesmos termos e no mesmo perodo. O resultado est nas Figura 40 e
Figura 41.

Os grficos tm certas semelhanas em alguns perodos, mas so bem diferentes em


outros. Pode-se notar que a preocupao com Dengue no to grande no Rio Grande
do Sul, em nenhuma poca, enquanto que no Brasil teve um pico em abril de 2013. Por
outro lado, no h no Brasil, como um todo, grandes variaes nas quantidades de
buscas pelo termo "gripe A", enquanto que no Rio Grande do Sul pode-se ver um
perodo de maior preocupao anterior a outubro de 2012.

89
Figura 40: Google Trends sobre Gripe A e Dengue no Brasil

Figura 41: Google Trends sobre Gripe A e Dengue no Rio Grande do Sul

A comparao de grficos correspondentes a grupos permite descobrir grupos com


comportamento similar (com correlao) ou inverso. Apesar de ser mais difcil
descobrir comportamentos inversos, tais descobertas so importantes e muitas vezes
menosprezadas. Se compararmos as vendas entre duas filiais, e os grficos forem
inversos (isto , quando um est em cima, o outro est em baixo e vice-versa),
possvel que elas estejam concorrendo entre si (uma tirando mercado de outro). E isto
pode ser feito para comparar vendedores, produtos, lojas, etc.

A descoberta de grficos inversos pode at mesmo ser interessante para levantar


hipteses que ainda no tinham sido consideradas. Por exemplo, uma indstria gerou
grficos de desempenhos de mquinas (com ndices numricos representando
quantidade e velocidade de produo e incluam as quebras). Cada grfico correspondia
a uma mquina especfica. Ao comparar os grficos entre si, notou-se que dois deles
eram exatamente inversos, ou seja, quando a produo de uma mquina estava no
mximo, a produo da outra estava em queda. Este tipo de padro nunca havia sido
notado ou mesmo pensado pelos especialistas em manuteno das mquinas. Uma
investigao mais profunda descobriu que o cronograma de uso das mquinas estava
sendo programado pelo gerente da produo de forma a poupar mquinas aos pares, ou
seja, alternando perodos de uso excessivo com perodos mais amenos.

90
8.5 Combinao e Integrao de padres

J vimos antes como comparar padres. Agora vamos discutir como combin-los, para
gerar um padro nico ou um novo padro. Imagine que haja duas regras com atributos
comuns, por exemplo:

a) Se operador = Rudinei Ento mquina = computador


significando que as falhas ocorridas numa empresa, quando tinham Rudinei como
operador, ocorriam no computador

b) Se operador = Rudinei Ento problema = no liga


significando que as falhas ocorridas numa empresa, quando tinham Rudinei como
operador, eram problemas do tipo "a mquina no liga".

Se ambas as regras possurem probabilidade de 100%, podemos juntar as duas regras (a)
e (b), e teremos que:

Se operador = Rudinei Ento mquina = computador E problema = no liga.

ou seja, toda as falhas ocorridas com Rudinei aconteceram no computador e eram do


tipo "no liga".

O uso de diagramas de Venn ajuda a visualizar melhor a situao.

Se as probabilidades no forem 100%, no podemos tirar a mesma concluso, mas pelo


menos isto levanta uma hiptese nova que no havia sido considerada ainda, pois os
padres estavam sendo analisados em separado.

Outro caso:

c) Se operador = Rudinei Ento mquina = computador (probabilidade de 100%)


significando que as falhas do Rudinei como operador ocorriam no computador.

d) Se horrio = 7 horas Ento mquina = computador (probabilidade de 100%)


significando que as falhas que ocorriam s 7 horas da manh ocorriam no computador.

91
Aqui, no podemos juntar as regras (c) e (d) porque no sabemos se os casos do Rudinei
so comuns aos casos ocorridos s 7 horas ou no.

Como mostra a figura abaixo, pode mesmo acontecer de no haver casos ocorridos com
Rudinei e s 7 horas, ou seja, no haver interseco entre as duas condies (nenhum
caso do Rudinei aconteceu s 7 horas e todos os casos que aconteceram s 7 horas no
eram com o Rudinei).

8.5.1 Hierarquia de padres e regras

Um caso interessante para comparar ou combinar padres quando temos hierarquias.


Por exemplo, a regra
"todas as falhas do Joo ocorreram no turno da manh"

mais genrica (ou geral) que a regra


"todas as falhas do Joo que ocorreram no turno da manh foram no torno"

(que mais especfica que a anterior).

Torno

Turno = manh

Joo

Aqui pode ocorrer de as regras no terem probabilidade 100%, mas o tipo de anlise
segue o mesmo.

92
Por exemplo, a regra
"70% das falhas do Joo ocorreram no turno da manh"

mais genrica que a regra


"80% das falhas do Joo que ocorreram no turno da manh foram no torno"

Torno

Turno = manh

Joo

Mas pode acontecer, por exemplo, que a regra mais genrica seja
"100% das falhas do Joo ocorreram no turno da manh"

mais genrica que a regra


"70% das falhas do Joo que ocorreram no turno da manh foram no torno"

Note que a probabilidade das regras (genrica X especfica) no necessariamente deva


ser maior numa ou noutra.

93
Agora note que neste ltimo caso, a regra
(e) "70% das falhas do Joo que ocorreram no turno da manh foram no torno"

pode ser resultado das duas regras a seguir:


(f) "70% das falhas do Joo ocorreram no torno"
(g) "100% das falhas do Joo ocorreram no turno da manh"

Note o seguinte na regra (e): "70% das falhas do Joo que ocorreram no turno da
manh ... "; mas todas as falhas do Joo foram de manh, ento pode-se dizer
simplesmente que "70% das falhas do Joo foram no torno" (regra "f").

O interessante que, em alguns casos, podemos suprimir algumas regras e trabalhar


somente com um grupo reduzido. O mais indicado ficar com a regra mais especfica
(neste exemplo, a regra combinada "e"). Entretanto, a regra mais geral (g) pode ser til
em alguma situao, se no quisermos considerar a mquina onde a falha ocorreu, e a
regra (f) pode ser til se no quisermos considerar o turno ou se j sabemos que o turno
da manh mais predominante.

Outro caso seguinte: se descobrirmos que a maior parte das nossas vendas so feitas
para clientes do estado de SP, e se soubermos que a maior parte das vendas (todas) so
feitas para clientes da cidade de SP, ento melhor ficar com a regra mais especfica (a
2a).

A sugesto ento procurar agrupar os padres por semelhana, ou seja, pelos atributos
em comum, e tentar verificar se possvel juntar os padres ou eliminar alguns, ficando
com os mais sucintos. Se for necessrio escolher, os autores sugerem ficar com padres
mais genricos, pois muita especificidade pode gerar sobrecarga.

8.5.2 Regras inversas

Outro caso interessante para avaliar so as regras inversas ou complementares, como


por exemplo:
"Se operador = Rudinei Ento mquina = computador"
"Se mquina = computador Ento operador = Rudinei"

No necessariamente que elas tenham que ter a mesma probabilidade. Se ambas tiverem
probabilidade 100%, temos o chamado "se e somente se".

O interessante , quando encontrarmos uma regra, verificar a regra inversa, e comparar


as probabilidades.

8.6 Avaliao e Teste de Hipteses

Aps terem sido levantadas hipteses de causas, necessrio avali-las ou test-las,


com o intuito de verificar sua veracidade ou a extenso de sua validade.

94
Uma das maneiras de testar hipteses fazer novas observaes no mundo real. Por
exemplo, se descobrimos um padro que a maioria dos clientes homens com mais de
30 anos adquire o produto X, basta observar se este padro aparece em novos casos.
Seria a mesma situao que fazer uma previso (o prximo cliente homem com mais de
30 anos ir comprar o produto X) e verificar se ela ocorre ou no.

Este tipo de validao era muito feita por cientistas no incio do mtodo cientfico e com
o surgimento de teorias cientficas, segundo Losee). Por exemplo, se temos 3
observaes tais que:

A1 P
A2 P
A3 P

podemos inferir uma regra tal que "Todo A P".

Para validar a regra, temos que saber se todos A realmente so P. Isto significa procurar
por As que no so P. Se houver um A que no seja P, ento a regra invlida. Mas
como testar com todos os casos ? Isto pode ser muito custoso. Alm disto, como vamos
saber se conseguimos testar todos os casos ?

Outro problema com este tipo de abordagem, segundo Losee, que podemos encontrar
concluses verdadeiras mas as premissas serem falsas. Estaremos validando premissas
ou regras invlidas. Ento teramos que validar todas as premissas antes.

Mas ter que validar todas as premissas anteriores pode ser muito trabalhoso (validar a
premissa da premissa e assim por diante). Para evitar tais problemas, a Humanidade
utiliza conceitos e princpios bsicos. So definies estabelecidas e aceitas pela
comunidade cientfica. O que Thomas Kuhn chamou de "paradigma". Isto evita ter que
fazer regresses infinitas e explanaes de todos os princpios. Mas a surge outro
problema (que ser discutido adiante), que justamente no haver mais discusso sobre
conceitos bsicos. Mas e se eles estiverem errados ? E se at hoje no tivssemos
questionado o heliocentrismo ?

Para testar as novas observaes, devemos manter as mesmas condies de quando a


regra foi descoberta, ou seja, o mesmo contexto. Por exemplo, no caso anterior, se a
inflao subir muito, ento possvel que a regra no valha mais. Assim, iramos
considerar a regra invlida, quando na verdade ela vale mas somente numa determinada
situao (por exemplo, com a condio de que a inflao esteja baixa). Lembra do
famoso padro em supermercado que dizia que clientes que compravam fraldas
tambm compravam cerveja ? E se o supermercado mudar a disposio dos produtos e
coloc-los em locais prximos, o padro ir se manter ?

possvel que uma hiptese s valha em certas situaes (por exemplo, para alguns
tipos de clientes ou produtos, ou somente em alguns perodos de tempo, ou at mesmo
s tenham sido verdadeiras no passado, no valendo mais no presente). Ento devem ser
determinadas as condies ou premissas para validade de uma hiptese.

95
Outra maneira de validar hipteses criar 2 grupos controlados, um que confirme a
hiptese e outro que contradiga. Por exemplo, se acharmos uma hiptese de que clientes
que gostam de esportes gastam 2 vezes mais que suas esposas, vamos preparar 2 grupos
para testar com novas observaes. Um com os clientes que gostam de esportes e outro
grupo com clientes que no gostam de esportes ou preferem outro tipo de hobby. Se o
padro (gastar 2 vezes mais que suas esposas) s acontecer num grupo, a hiptese
vlida. Mas se o padro aparecer nos dois grupos, ento a hiptese no vale. A curva
ROC permite comparar resultados (experimentais X observacionais).

A forma ento de validar uma hiptese fazer uma predio e avaliar o resultado com
novas observaes. O problema pode ser uma questo de tempo entre a predio e seus
resultados. Imagine ter que esperar anos para saber se algo que acontece na infncia
causa de cncer (Maathuis et al., 2010).

Outro problema da validao pode ser seu custo (tendo que refazer experimentos ou
situaes). Imagine que foi descoberto um padro que diz que mquinas da marca XYZ
quebram mais no vero e quando utilizadas por operadores novatos. Ento, para
avaliar esta regra, devemos esperar o prximo vero e colocar um operador novato para
oper-la. Mas e se fizermos manuteno preventiva neste meio tempo ? Ento o
contexto foi alterado, como j discutido no pargrafo anterior. O custo tambm pode
advir de ter que realizar novos experimentos. Por exemplo, ao realizar uma campanha
de marketing na TV em horrio nobre (ou seja, com custo alto), uma empresa de
publicidade descobriu um determinado padro. Para avaliar o tal padro, seria
necessrio repetir a campanha, que j foi custosa. claro que, se a empresa acredita que
a campanha foi boa, ela ir repeti-la e comparar os resultados financeiros. A isto
chamamos taxa de retorno de campanhas de marketing. E se os resultados da segunda
campanha no forem bons ? Ento o padro estava errado. E o custo foi desperdiado.
Mas no havia como testar a hiptese sem refazer a campanha.

Outro exemplo de custo para avaliar uma teoria: uma empresa descobriu que, se os
vendedores usassem de um determinado artifcio na negociao, a venda seria perdida.
Como testar esta hiptese ? Refazendo o modo considerado errado ? Neste caso, o
normal para qualquer pessoa evitar repetir o erro. Mas se a teoria estiver errada e no
for mesmo um erro tal procedimento ?

Uma alternativa seria utilizar software para simulao e testar as hipteses. Para isto,
precisamos do modelo real e parmetros. Por exemplo, equipes de Frmula-1 utilizam
simuladores chamados tneis de vento para testar o design do carro. Utilizando leis da
Fsica e modelos computacionais do carro possvel avaliar sua performance dentro do
computador, sem precisar de um tnel de vento real ou um carro em tamanho real.

Outra questo a ser pensada quando se quer avaliar uma hiptese, definir o perodo
pelo qual a hiptese ser avaliada. No mesmo exemplo anterior, devemos considerar
quantos clientes do mesmo tipo ? Ou devemos considerar todos os clientes que fizerem
compras nos prximos n dias, mas qual o valor de n ?.

Outra tcnica de validao de hipteses a reduo ao absurdo (de Euclides e


Arquimedes, segundo John Losee). Para confirmar que um padro ou regra invlido,
bastaria inferir ou derivar um fato que fosse uma contradio da regra ou um resultado
absurdo. Por exemplo, imaginemos que um sistema de Data Mining automaticamente

96
descobre que todos os pacientes que so tratados na ala sul do hospital recebem, como
procedimento cirrgico, uma cesariana. Se conseguirmos encontrar um paciente do sexo
masculino que foi tratado na ala sul, a regra ento no mais vlida.

Assim, uma forma de invalidar uma regra encontrar um caso que seja exceo, ou
seja, onde a regra no se aplica. Entretanto, excees existem aos montes e a
estaramos simplesmente desconsiderando a regra. O que pode acontecer diminuir a
probabilidade da regra. Por exemplo, se encontrarmos uma regra que diz que clientes
homens entre 20 e 30 anos praticam algum tipo de esporte, talvez ela no valha para
100% dos casos. Se houver excees neste caso, elas no invalidam a regra mas
somente diminuem sua fora.

Conforme Popper, fcil obter confirmaes ou casos positivos; basta procur-los.


Entretanto, as confirmaes (casos positivos) s devem ser consideradas como prova se
resultarem de predies arriscadas ou pouco provveis. Popper tambm argumenta que
toda teoria ou modelo de certa forma uma proibio (ela probe certas coisas de
acontecerem). E assim, quanto mais a teoria ou modelo probe, melhor ela . Popper
encerra dizendo que a Astrologia e algumas teorias psicolgicas aceitam e explicam
tudo, e portanto no devem ser consideradas teorias cientficas.

Uma anomalia na refutao de padres ou teorias eliminar tambm alguns efeitos


positivos. Houve um caso numa empresa que descobriu que certas reunies eram
desnecessrias para atingir alguns objetivos. Ento, para diminuir custos, aquele tipo de
reunio foi cancelada. Os objetivos continuaram a ser alcanados e os custos
diminuram. Entretanto, as tais reunies traziam benefcios paralelos e ajudam em
outros objetivos, os quais tiveram perdas com o fim destas reunies. Apenas aps
alguns meses, a tal anomalia foi detectada. A soluo no foi trazer de volta aquelas
reunies mas utilizar outros tipos de procedimentos para substituir as reunies e obter os
mesmos resultados paralelos.

O problema todo que vivemos num mundo cada vez mais complexo. H muitos
padres, mas tambm muitas excees. H muitos efeitos colaterais, positivos e
negativos. Conseguir mapear todas estas influncias uma tarefa muito difcil.

Um perigo na avaliao de hipteses querer acomodar fenmenos (dados observados)


no modelo proposto. John Losee e muitos cientistas chamam a isto de "salvar as
aparncias". Isto pode ser feito distorcendo dados e observaes para confirmarem
hipteses, ou mesmo escondendo ou minimizando excees. H o famoso caso de um
vidente que previu tantas catstrofes, que precisou forjar algumas para no passar
ridculo.

8.7 Retroalimentao

Todo processo de descoberta e investigao cclico, ou seja, alguns passos ou mesmo


o processo todo devem ser refeitos. Quando hipteses so descobertas, necessrio
valid-las. Confirmadas ou no, necessrio voltar e refazer o processo para descoberta
de novas hipteses e continuar o ciclo.

97
Muitas vezes, at mesmo para validar uma hiptese necessrio refazer o processo, mas
a utilizando uma abordagem reativa e no proativa.

Em outros casos, necessrio refazer o processo vrias vezes para gerar um conjunto
grande de hipteses ou mesmo de conhecimentos j validados, para que possam ser
combinados (j discutimos anteriormente como integrar e combinar padres ou regras).

98
9 Processo de BI como Descoberta e Investigao
Encontrar porqus uma caracterstica tpica de processos de investigao e descoberta.
Isto inclui a investigao cientfica, a descoberta de fontes de recursos naturais, o
diagnstico mdico, a busca por causas de efeitos ou problemas, o planejamento de
recursos para atingir objetivos.

A maioria dos pesquisadores concorda que o processo de descoberta cclico, tendo


como passos principais: (Agrawal e Imielinski, 1993; Parsaye et al., 1989; Ingwersen,
1996):
a) a formulao de hipteses;
b) o teste das hipteses;
c) a observao dos resultados (para refutar ou confirm-las);
d) a reviso das hipteses e a sua modificao (reiniciando o processo), at que o
usurio se d por satisfeito.

Portanto, a estratgia inicia com a gerao de hipteses iniciais. Hipteses so roteiros


para direcionar a investigao ou o processo de descoberta e anlise. Elas sugerem que
dados coletar e analisar. Se estivermos investigando causas de acidentes de trnsito,
podemos comear pesquisando quantos acidentes foram causados por condutores
embriagados. Isto no significa que a causa principal esta ou que iremos somente nos
concentrar neste tipo de causa. A avaliao desta hiptese inicial pode at mesmo nos
desviar para a causa real, caso se descubra que esta causa inicial no muito frequente.

Entretanto, levantamento de hipteses ou mesmo sua investigao no uma tarefa


simples. No um algoritmo ou programa com passos bem definidos. O que h uma
estratgia (algo como um framework). Edgar Morin (2000, p.90) nos avisa: a
estratgia deve prevalecer sobre o programa. O programa estabelece uma sequncia de
aes que devem ser executadas sem variao em um ambiente estvel, mas, se houver
modificao das condies externas, bloqueia-se o programa. A estratgia, ao
contrrio, elabora um cenrio de ao que examina as certezas e as incertezas da
situao, as probabilidades, as improbabilidades. O cenrio pode e deve ser
modificado de acordo com as informaes recolhidas, os acasos, contratempos ou boas
oportunidades encontradas ao longo do caminho. Podemos, no mago de nossas
estratgias, utilizar curtas sequncias programadas, mas, para tudo que se efetua em
ambiente instvel e incerto, impe-se a estratgia.

Este levantamento exige conhecimento do domnio, criatividade e certas habilidades


que talvez no possam ser aprendidas em cursos ou manuais. Muitas vezes, inventores,
investigadores, criadores, etc, conseguem chegar a solues de problemas por insights,
que no podem ser explicados, de onde vieram, ou como foram gerados (tpico que ser
discutido mais adiante neste captulo).

O conhecimento prvio sobre o assunto ou domnio importante, bem como estar ciente
do contexto, parmetros, limitaes e condies em que a investigao ocorre.
Entretanto, o conhecimento subjetivo, flexvel, mutvel e depende das pessoas. Por
isto, Moscarola e Bolden (1998) sugerem o modelo construtivista ao invs do positivista

99
para os processos de descoberta. Isto , o processo deve ser de construo e guiado por
um especialista humano. A construo forma-se a partir de fundamentos, que podem ser
dados novos ou conhecimentos e teorias prvias. E vai se desenvolvendo com
aprendizados, erros e correes. Os caminhos podem ser refeitos, os objetivos
redirecionados, hipteses novas podem surgir, anteriores podem ser refinadas, refeitas
ou mesmo descartadas. As concluses iniciais devem ser validadas. As primeiras nunca
devem ser tomadas como verdadeiras de imediato.

Este captulo se concentra no problema de descoberta de hipteses iniciais.

9.1 Descobrindo hipteses de causas

No devemos esquecer que primeiro vm as observaes e depois as hipteses, seno


fico cientfica ou inveno. BI procurar por porqus, explicaes, causas, padres.
Mas eles s surgem se houver pistas anteriores. E estas hipteses iniciais nem sempre
so as concluses ou respostas definitivas. Podem ser simplesmente um passo inicial
para algo bem diferente. J houve casos de teorias erradas que levaram a objetivos
certos. Lembre do caso da navegao de Cristvo Colombo.

Segundo Popper, existem boas e ms teorias. S precisamos saber distingui-las. A ideia


comear com qualquer teoria, ir testando e melhorando-a. No ruim fazer tentativas.
Pode ser custoso, mas o processo de construo e aprendizado.

Pior seria no ter hipteses para comear. Conforme Clarke e Eck, a falta de hipteses
pode gerar "paralisia de anlise", conduzindo a investigao a lugar nenhum.

Podemos comear pelas teorias j conhecidas em outros ramos e verificar se se aplicam


no nosso contexto (as chamadas analogias). Ou ento procurar por hipteses bem
diferentes. Popper sugere que teorias mais provveis so pouco interessantes, porque
possuem pouco poder de explicao. Entretanto, o objetivo no se preocupar com a
probabilidade da teoria, mas sim com seu poder para explicar fenmenos.

A coleta inicial de dados

Na investigao criminal, como nos seriados CSI, os investigadores primeiro procuram


por evidncias, pistas ou sinais. O mesmo ocorre no diagnstico mdico: o mdico
analisa primeiro sinais, sintomas, queixas. Existem evidncias primrias e evidncias
secundrias. Por exemplo, num crime, os elementos que esto disponveis na cena do
crime so elementos primrios. Mas h informaes importantes como endereos
visitados por vtimas e suspeitos, amigos e relaes profissionais, ligaes telefnicas,
etc., que compem as chamadas evidncias secundrias.

Se no tivermos dados iniciais, ou no soubermos por onde comear coletando dados, a


famosa estratgia dos 5W e 2H funciona bem para este incio de processo:
What (o que aconteceu),
Who (quem fez ou participou ou foi vtima ou prejudicado),
When (quando aconteceu o fato),
Where (onde ocorreu o evento),
100
How (como ocorreu o evento),
How Much (quanto: quantificar algumas variveis j conhecidas).

Um dos W (Why - por que ocorreu) ser deixado de fora neste incio, j que
justamente o alvo da investigao.

A ordem dos eventos tambm pode influenciar o resultado. Por exemplo, vendedores
com as mesmas aes podem ter tido resultados diferentes; e isto pode ser devido
ordem das aes. A aplicao da tcnica de Data Mining para anlise de Sequncias de
Tempo, apresentada na seo 5.1, pode ser til para descobrir padres em relaes
sequenciais entre eventos (uma ordem significativa de acontecimentos).

Estes primeiros passos geram volumes grandes de dados. O famoso Big Data. Deve-se
ter ferramentas prprias para registrar os dados, seus relacionamentos, de forma a
facilitar a anlise e filtragem posteriores.

No se deve fazer filtragens no incio. Tudo importante; nenhum dado deve ser
descartada ou menosprezado. Lembre do efeito Borboleta no clima. O mesmo se diz
para relaes entre variveis. Tudo deve ser anotado para anlise futura. Lembre que um
supermercado descobriu uma relao entre as vendas de fraldas e cervejas, o que a
princpio pode parecer um absurdo.

Quantidade de informao X sobrecarga X rudos

A quantidade de informao importante. Quanto mais informao melhor. Mas em


muitos casos a quantidade pode gerar sobrecarga, tirando ou desviando o foco de causas
importantes. J comentamos antes os problemas do excesso de variveis em anlises
estatsticas no baseball, muito discutido no livro Moneyball de Lewis. Houve tambm
um caso de uma empresa que usava 50 variveis para diferenciar perfis de clientes. No
final, descobriram que apenas 5 atributos seriam suficientes para distinguir as principais
classes.

Aqui no podemos deixar de lembrar os estudos de George Miller, na dcada de 50,


sobre o nmero mgico 7 mais ou menos 2. Resumidamente, para quem no conhece
esta teoria, ela diz que o ser humano normal tem a capacidade para gerenciar de 5 a 9
subsistemas (7-2=5 e 7+2=9). Ento, se tivermos que dividir um sistema em partes, o
melhor que ele tenha de 5 a 9 partes. Na prtica, podemos pegar o exemplo de montar
uma equipe de trabalho. Se ela tiver mais de 9 pessoas, o lder do grupo ter
dificuldades para gerenciar todos. Se o grupo tiver menos de 5 pessoas, haver
capacidade ociosa. E estas concluses perduram at hoje. Ningum ainda fez um estudo
capaz de contradizer as concluses de Miller. Concluindo, o ideal trabalhar com um
nmero reduzido de variveis e este nmero poderia ficar entre 5 e 9.

Nate Silver escreveu um livro todo (e no pequeno) para tratar do problema de


informaes a mais que acabam deturpando as anlises e desviando pessoas do objetivo.
Ele caracterizou tais dados como rudos e chamou de "overfitting" o engano de
interpretar rudo como sinal. Por isto se deve a importncia de saber filtrar, armazenar,
buscar corretamente, fazer resumos, interpretar e saber distinguir o que importante.

101
Silver declara que um dos maiores riscos na era da informao que a massa de
conhecimento no mundo est aumentando (e exponencialmente). Ento a diferena
entre o que sabemos e o que pensamos saber pode estar aumentando. E como
consequncia temos um crescente aumento de stress, porque as pessoas querem e
precisam saber e armazenar mais informaes e conhecimento.

A observao direcionada, seletiva

Segundo Darwin, "ningum pode ser bom observador se no tiver uma teoria antes".
preciso direcionar o foco da observao, porque pode haver muita informao. Isto no
significa apaixonar-se pela teoria e no enxergar outros caminhos. Darwin mesmo tinha
algumas teorias iniciais (vindas de Lamarck) que acabou refutando com suas
descobertas.

Se estivermos numa aula e pedirmos aos alunos para "observarem", eles perguntaro
"observar o qu ?". Se estivermos numa cidade nova com fome, a observao ser para
encontrar algum lugar para comer. Se estivermos sem compromisso, talvez nos
interessemos pela arquitetura e pelo ambiente. Se estamos procurando uma pessoa, s
vamos olhar para pessoas. O ser humano recebe muitas informaes pelos 5 sentidos,
externas e internas, mas no d relevncia a tudo. E nem pode. Para evitar a sobrecarga,
preciso fazer filtros e selecionar dados.

Koestler diz que o "bom observador" aquele que direciona suas observaes. Popper
diz que usamos quadros de referncia. Somos condicionados pelas necessidades e
vontades, primeiro momentneas, depois relativas a nossa expectativa de futuro, mas
isto tudo moldado pelo nosso passado. O passado pode ajudar, acelerando buscas,
eliminando lixos. Mas pode nos condicionar por um vcio de interesse e fechar nossos
olhos a novas observaes. A filtragem pode ser boa para evitar o acmulo de grande
volume de dados. Mas pode ser ruim, por deixar coisas importantes de fora da anlise.

Por isto, devemos usar tcnicas e nossa experincia para saber selecionar e filtrar dados.
Um dos auxlios pode ser o uso de ferramentas de software, para ajudar no
armazenamento, recuperao e seleo de dados. O ser humano possui limitaes para
estas tarefas. O computador no to inteligente. Mas a parceria de ambos pode ser
uma soluo tima.

Bancos de dados e planilhas so teis para armazenar dados estruturados. H formas


diferentes de recuperao, comeando pelas mais tcnicas como a linguagem SQL ou
XQUERY ou XPATH (para XML), mas tambm podemos usar classificaes
(taxonomias) e consultas por palavras-chave (como o Google). A grande dificuldade
est em lidar com dados no estruturados (discutida mais adiante), tais como textos,
imagens e sons.

As ferramentas para visualizao de dados ajudam a gerar resumos e filtros visuais. H


diversas formas diferentes de ver os mesmos dados. Isto nos d pontos de vista
diferentes, como j discutido antes, quando falamos de dados multidimensionais. No
link abaixo, a Universidade de Maryland apresenta diversas tcnicas que esto sendo
pesquisadas para visualizao de informaes.
http://www.cs.umd.edu/hcil/research/

102
E h tambm o livro de Jacques Bertin, sobre o assunto.

A intuio para seleo de dados

A intuio um palpite, mas no uma adivinhao. Ela deve ser precedida por dados. A
questo que a intuio acontece numa deciso sem muita explicao de onde veio, se
ela est certa ou no ou por que devemos utiliz-la. saber algo sem saber explicar
como. Max Gunther acredita que usamos dados do inconsciente, que foram colhidos e
armazenados antes, mas que no temos conscincia de quando os estamos usando.
como reconhecer um amigo na rua ou a voz de algum no telefone. No tem explicao,
mas a gente faz e na maioria das vezes no erra.

Simon (1972) apresenta a teoria da racionalidade limitada nas decises. A premissa


que as pessoas procuram tomar decises de forma racional, analisando dados, usando a
lgica, etc., mas nem sempre isto acontece na prtica. Em parte, o processo de deciso
limitado por no termos todos os dados disponveis, ou por eles estarem incompletos, ou
por no sabermos se so verdade ou no. E na maioria das vezes, no vale a pena coletar
todos os dados necessrios e verific-los. Por exemplo, se uma pessoa quiser comprar
um sapato, pensar em verificar na cidade qual a loja com o preo mais barato.
Entretanto, se for avaliar o preo de cada loja, ao terminar o processo, ter levado tanto
tempo que os primeiros preos consultados j podero ter sido alterados e o custo total
de deslocamentos e perda de tempo no valer o desconto que conseguir. impossvel
que o indivduo conhea todas as alternativas para uma deciso e que possa avaliar
todas as suas consequncias. A tendncia do ser humano simplificar as escolhas. Isto
quer dizer que no temos como saber se a deciso tomada foi a mais acertada antes de
tom-la; somente aps saberemos se deu certo ou no. E mesmo tendo alcanado xito,
talvez no tenhamos certeza se foi a melhor alternativa.

Malcolm Gladwell, no livro Blink (2005), fala de experimentos de psiclogos


analisando vdeos de casais conversando e tentando prever se o casal iria continuar
junto ou no depois de 15 anos. Ao analisar 1 hora de vdeo, eles conseguiram uma
acurcia de 95%, enquanto que analisando apenas 15 minutos de vdeos, atingiram 90%
de preciso nas predies. Ou seja, no so necessrios muitos dados nesta situao.
Padres podem ser identificados em resumos. Gladwell tambm comenta sobre tcnicas
utilizadas por americanos para reconhecer operadores alemes de cdigo Morse. Como
saber distinguir operados numa tarefa to rpida como transmitir cdigo Morse ? algo
que no pode ser explicado conscientemente.

Uchida, Kepecs e Mainen (2006) concluem que as pessoas vo acumulando dados, a


partir de experincias e sentidos, os quais vo sendo agregados at o momento em que
uma deciso tomada. Mas isto acontece em fraes de segundo.

Wilson (2004) discute o inconsciente adaptativo, um sistema de percepo no


consciente, que utiliza funes de menor ordem (percepo, compreenso da
linguagem), ao contrrio de funes de alta ordem, envolvendo raciocnio. Segundo
Wilson, nossos sentidos recebem 11 milhes de pedaos de informao num dado
momento, nossos olhos recebem e enviam para crebro 10 milhes de sinais a cada
segundo, mas s conseguimos processar 40 partes de informao por segundo, de forma

103
consciente. Por exemplo, se voc pedir para um pianista explicar que sequncia de
teclas ele usa numa msica que saiba tocar sem partitura (de memria ou de cabea),
dificilmente ele conseguir explicar, ou pelo menos, levar um bom tempo tentando
relembrar. Mas no momento de tocar a msica, a sequncia vem sem ele precisar pensar
sobre isto.

A intuio tambm utilizada, segundo Gunther, sem a necessidade de pressa. Ela no


deve ser confundida com caminho mais fcil (preguia). Gunther no recomenda confiar
na primeira impresso, mas sugere que coletemos muitos dados.

O hbito e a experincia para seleo de dados

A experincia, o hbito pode ajudar a aprimorar o uso de intuies, tanto para filtragem
do que coletar quanto para seleo de hipteses ou causas provveis.

O hbito uma vantagem quando no h tempo para raciocinar. Ele nos ajuda a tomar
as decises certas. Mas deve ser treinado, para no ser usado como sorte ou preguia.
Por exemplo, o jogador que assume a funo de lbero num time de vlei, quando ele
faz uma defesa, ele no pensa conscientemente. A reao em milsimos de segundos.
Mas seu crebro precisa tomar decises quanto a posicionamento do corpo (pernas,
braos, mos, etc.), para rebater a bola para frente, em direo ao meio da quadra, sem
passar a rede e sem ficar muito perpendicular a ele mesmo. Para tanto, ele vai dispor
braos, mos e restante do corpo, mas a deciso no consciente. As decises rpidas (e
acertadas) neste caso vm devido a treino (a fora do hbito). como digitar um texto
num computador sem olhar para o teclado. Se perguntarmos a uma pessoa que digite
textos rapidamente onde fica uma determinada letra, ele ter que parar para pensar. Mas
se pedirmos para ele digitar uma palavra, esta sair rapidamente. O mesmo com um
piloto de corrida. As decises so tomadas rapidamente, parecendo ser instinto, mas na
verdade um hbito que foi muito treinado.

Outro exemplo de hbito ou habilidade muito treinado o caso de Ayrton Senna


correndo na chuva. No incio de carreira, no kart, ele no sabia andar na chuva. Ento
comeou a treinar exaustivamente at que pudesse fazer disto um hbito, ou seja, uma
habilidade que ele desempenhava sem precisar pensar (eram decises rpidas).

Kahneman fala da importncia de praticar o hbito. Ele afirma que os grandes jogadores
de xadrez no veem o mesmo tabuleiro como um novato. Eles conseguem visualizar
jogadas possveis pela fora do hbito. O treino gera uma habilidade para acessar mais
rapidamente certas informaes no crebro e organiz-las melhor. Gladwell, no seu
livro sobre Outliers (2011), chega a um nmero mgico de 10 mil horas de treino, que
distingue os grandes campees dos demais. Ele v isto em grandes msicos e jogadores.
Se uma pessoa treinar 8 horas por dia, todos os dias, sem folgas, precisar de 3,4 anos
para chegar a este nmero. por isto que podemos notar que grandes campees de
esportes ou msicos virtuoses comearam com pouca idade.

Duhigg (2012) diz que podemos instalar hbitos em nossos crebros. Eles ficam
armazenados em reas especficas do crebro e podem ser recuperados de forma
inconsciente. Comea com um estmulo que manda o crebro entrar em modo
automtico, e indica qual hbito deve ser usado. As recompensas (dor, prazer, etc.)

104
ajudam o crebro a saber se vale a pena memorizar este hbito para o futuro ou no. A
sugesto definir um plano para uma rotina que traga a mesma recompensa. Para o
lbero do vlei, seria treinar exaustivamente defesas e recompensar com felicidade ou
tristeza cada resultado. Recompensas diferentes ajudam o crebro a diferenciar aes
boas de ruins.

Heursticas para seleo de dados

Regras heursticas orientam decises mesmo sem garantir resultados. No so


algoritmos ou procedimentos. Devem ser usadas conforme a situao do momento.

Em muita decises, no h informaes suficientes para uma boa escolha. Por exemplo,
ao chegarmos a uma encruzilhada, no caminho em direo a um destino, e se no
tivermos um mapa, vamos usar heursticas para escolher o caminho a seguir. Talvez
algum olhe para o cu, e mesmo sem saber orientar-se por ele, tenha um lampejo de
informao, lembrando de uma situao semelhante em que ficou perdido. Outros
olharo para o cho, lembrando situaes que viram num filme (nunca experimentaram
a mesma situao mas reusaro solues que foram teis para outras pessoas).

Algumas heursticas esto enraizadas no ser humano como hbito ou instinto. Por
exemplo, segurar coisas que caem, fugir do fogo ou de animais que rosnam. Mas as
heursticas tambm so usadas para acelerar a soluo de problemas. Conforme,
Gigerenzer e Gaissmaier (2011), uma heurstica uma estratgia que ignora parte da
informao com o objetivo de fazer decises mais rpidas do que mtodos complexos.
Em casos onde no h tempo para pensar, as heursticas podem funcionar.

Por outro lado, como as heursticas so usadas sem conscincia, podem gerar resultados
catastrficos, quando seria melhor raciocinar sobre alternativas. Gladwell no livro Blink
(2011) descreve o caso de um bombeiro que sobreviveu a um incndio na floresta
parando para pensar numa soluo, enquanto que seus companheiros no tiveram a
mesma sorte porque seguiram seus instintos (ou heursticas).

Lenat (1982) diz que as heursticas podem ser construdas por especializao ou por
generalizao. Por exemplo, se uma deciso foi til numa caminhada por uma floresta,
possvel que tambm seja til em qualquer tipo de caminhada (generalizao) ou em
caminhadas menores (especializao). A fora das heursticas est na analogia que
proporcionam. Se uma heurstica H foi til numa situao S, ento heursticas similares
a H sero teis em situaes similares a S (analogia). Entretanto, se o ambiente muda
rapidamente, as heursticas possuem pouco tempo de vida.

Em resumo, as heursticas funcionam bem para ajudar o raciocnio, eliminando


alternativas quando h muitas e no h tempo ou recursos suficientes para avaliar todas.

A observao influencia o ambiente

Nate Silver comenta sobre o princpio da incerteza de Heisenberg: assim que


comeamos a medir algo, seu comportamento comea a mudar. Em muitos casos que
envolvem atividades humanas, o prprio ato de observar pode alterar o comportamento

105
das pessoas. Se as pessoas souberem que esto sendo avaliadas ou observadas, mudam
seu comportamento (para melhor ou pior).

Hoje em dia se discute muito no Brasil se as pesquisas de opinio para eleies


influenciam ou no os que votam. Conforme vamos coletando dados e formando
hipteses, nosso conhecimento vai mudando, vai-se moldando. No h como impedir tal
modificao. Isto pode nos direcionar na coleta de mais dados, fazendo-nos eliminar
certas hipteses ou circunstncias, ou fazendo com que nos atenhamos mais a certos
detalhes.

Como j dito antes, no errado formular hipteses iniciais. O problema s ficar com
estas e descartar outras possibilidades.

Fazer as perguntas certas

Conforme Koestler, o que diferenciou Darwin de outros pesquisadores que acreditavam


e estudavam a teoria da evoluo foi que conseguiu provar a teoria com o seu porqu e
como. Mas para isto, ele precisou fazer as perguntas certas. Neste caso, por que as
espcies evoluam e como (origem das modificaes e como passavam entre as
geraes). Alm disto, ele foi atrs de fatos para explicar sua teoria.

Fazer as perguntas certas significa coletar e armazenar os dados certos, ou seja, j ter
algumas hipteses do que pode ser a causa ou o que pode influenciar. Se a causa para
quebras de mquinas a temperatura ambiente, ento temos que coletar estes dados e
inseri-los na base de dados para depois poder utilizar as tcnicas de anlise com ajuda
de software. Se esta for a causa e tais dados no estiverem na base, ou no
descobriremos nunca a causa ou ento estaremos calcados em descobertas enganosas.

Detalhes podem fazer a diferena. O ser humano tem a tendncia de analisar o que
comum, mais frequente, o que aparece mais. assim com a moda. Ningum d ateno
para um tipo de acessrio que s uma pessoa usa. Se vrios estiverem usando o mesmo
estilo, isto chama a ateno das pessoas comuns. Entretanto, num processo de
descoberta ou investigao, os pequenos sinais podem ser muito teis. Pergunte a um
investigador policial. Ento, num primeiro momento nada deve ser descartado. Todos os
dados possveis devem ser coletados e analisados. Todos os caminhos devem ser
considerados. E vrias hipteses iniciais devem ser construdas.

Descobrir as hipteses iniciais um processo de tentativa e erro. Podemos acelerar com


analogias e benchmarking, como ser discutido adiante. Mas muito provavelmente ser
necessrio refazer o processo de descoberta, analisar novos padres ou outras causas
possveis, gerar novas hipteses, test-las com casos reais e a refazer tudo de novo.

Viso Holstica - Anlise do Contexto

A viso holstica significa a "Viso do Todo", ver todos os elementos e suas relaes.
Isto ajuda a entender como o todo (problema) est composto e pode ajudar a direcionar
o foco ou mesmo ver detalhes pouco percebidos.

106
Procure observar as interaes, no s estabelecendo as conexes entre os elementos
mas entendendo que tipo de conexo existe. X pode estar conectado a Y por ser sua
causa, mas pode estar conectado a Z por que so ideias contrrias e pode estar
conectado a W por outra razo diferente. No estabelea regras de tipos de conexes,
no fique preso a paradigmas, tenha mente aberta.

Os gregos s conseguiram entrar em Troia porque estudaram o povo troiano. Se


tivessem visto o todo (problema) somente como uma cidade-fortaleza com muros altos,
poo de fogo, porto forte e guerreiros, estariam at hoje tentando entrar. A ideia do
Cavalo de Troia veio porque eles entenderam que o problema inclua o povo troiano, e
este detalhe fez a diferena. Eles descobriram que o povo troiano era supersticioso,
muito religioso e acreditava em presentes dos deuses. Da veio o insight da soluo.

Viso holstica tambm tem a ver com Sinergia (o todo maior que a mera soma das
partes). Se ao analisar a molcula de gua (H2O), observssemos os elementos
hidrognio e oxignio em separado, no saberamos que o estado natural da gua
lquido. Quando os elementos de um todo interagem entre si, formam um sistema
complexo que pode levar a resultados imprevisveis. S listar os elementos no
suficiente; temos que entender as relaes entre eles.

Segundo Morin (2000, p.42), at meados do sculo XX, a maioria das cincias obedecia
ao princpio de reduo, que limitava o conhecimento do todo ao conhecimento de suas
partes, como se a organizao do todo no produzisse qualidades ou propriedades novas
em relao s partes consideradas isoladamente. A sinergia se resume em dizer que 1 +
1 = 3. Quando as partes se juntam, podem formar algo novo e bem diferente. Foi assim
que a primeira forma de vida deve ter comeado segundo a teoria evolucionista.

preciso entender o contexto e coletar dados externos. Lembre que o mundo no


fechado, como j discutido na seo 6.3 Lembre do exemplo das vendas de laranja
(Figura 30).

No entender isto como procurar a causa para defeitos num carro observando apenas o
comportamento do motorista e as peas, sem olhar para a estrada, o clima, o que outros
motoristas fizeram, etc. Houve um caso interessante numa cidade do interior do Rio
Grande do Sul. Estavam acontecendo suicdios entre agricultores em nmero fora dos
padres normais. As primeiras hipteses levavam para investigao de aspectos sociais,
como famlia, ambiente social onde trabalhavam, perspectivas econmicas, etc. Depois
descobriu-se que o uso excessivo de agrotxicos estava influenciando o organismo e o
lado psicolgico dos agricultores.

Em biologia, diz-se que os ecossistemas so formados pela unio de dois fatores:


a) fatores abiticos: conjunto de todos os fatores fsicos que podem incidir sobre as
comunidades de uma certa regio (ex.: luz, temperatura, chuva, tipo de solo);
b) fatores biticos: conjunto de todos seres vivos que interagem numa certa regio

Se estivermos lidando com sistemas biolgicos, temos que considerar estes aspectos. E
a a sinergia bem maior e complexa. H o famoso caso da guerra dos pardais na China
em 1958. O governo identificou que os pardais estavam comendo arroz nas plantaes e
diminuindo a produo. Ento fez uma ampla campanha para que os cidados
ajudassem a matar pardais. Com a populao de pardais quase extinta, os gafanhotos

107
comearam a atacar as plantaes de arroz, porque os pardais eram seus predadores
naturais.

Verificar o que comum a um conjunto de casos

Uma das maneiras de levantar hipteses de causas identificar caractersticas (atributos


ou valores ou intervalos de valores) que se repetem entre todos os elementos ou casos
de um grupo de eventos. Este o Mtodo da Concordncia de Duns Scotus (segundo
Losee): analisar instncias de ocorrncias de um evento procurando o que comum nas
instncias.

Por exemplo, nos EUA, a polcia conseguiu capturar um franco atirador porque ele se
escondia dentro de um carro, atirando por um buraco no porta-malas; as imagens dos
locais sempre tinham este carro. Analisando os dados capturados e armazenados no
banco de dados, no se tinha nenhum atributo comum a todos os casos. O bairro era
diferente, horrio e tipo de vtima tambm. Mas as imagens revelaram o sinal comum
que permitiu identificar o criminoso.

Um cuidado que se tem que ter que em alguns conjuntos pode no haver uma
caracterstica comum a todos elementos. Por exemplo, na maioria das empresas, se
formos procurar o que h de comum a todos clientes, a resposta ser "nada" (conjunto
vazio). O que acontece que os clientes formam grupos, porque justamente o mercado
segmentado. Ento, neste caso, seria melhor utilizar a tcnica de agrupamento
(clustering), que separa automaticamente os elementos por similaridade. Depois, a
tcnica de induo permite descobrir as caractersticas de cada grupo.

Figura 42: Grfico de Pareto

Outra foram de trabalhar com elementos diferentes, montando um ranking dos


elementos, uma ordem segundo algum critrio. Pode-se por exemplo utilizar o grfico
de Pareto, colocando mais esquerda os elementos com maior valor para um
determinado atributo. Por exemplo, na Figura 42, imagine que cada barra corresponde a
um cliente e o tamanho da barra indica o nmero de itens adquiridos pelo cliente. Neste
caso, o atributo considerado para a gerao do ranking o nmero de itens adquiridos,
mas poderia ser a soma total de valores monetrios gastos por cada cliente, a idade de

108
cada cliente. E os elementos podem ser produtos, lojas, vendedores, etc. Em geral, o
Grfico de Pareto ento se assemelha a uma curva descendente.

Para identificar caractersticas comuns, preciso formar um grupo para anlise ou


separar por grupos usando tcnicas de discretizao. Por exemplo, pode-se trabalhar
somente com os mais bem posicionados no ranking ou os intermedirios ou aqueles
posicionados mais embaixo (a curva ABC funciona assim para classificar clientes).
Pode-se definir um limiar numrico para os valores do atributo sendo considerado para
corte dos elementos ou considerar os N primeiros elementos ou separar o grupo todo em
N partes iguais.

Uma variao do mtodo seria trabalhar com valores fuzzy para classificar elementos.
Por exemplo, se estamos classificando pessoas por faixa etria, temos a tendncia de
definir limites. Poderia ser assim: jovens so pessoas menores de 24 anos, adultos tm
entre 25 e 40, sniors tm entre 41 e 60 anos e a 3a idade formada por pessoas com
mais de 60 anos. Mas o que acontece com pessoas prximas das fronteiras (por
exemplo, algum com 24 anos e alguns meses) ? A lgica fuzzy permite classificar um
mesmo elemento em duas classes distintas mas com graus de pertinncia diferentes.
Ento, se uma empresa for fazer campanhas de marketing para clientes segmentados por
idade, usando o raciocnio fuzzy, a empresa no perde oportunidades deixando clientes
das fronteiras somente numa campanha.

Depois, tendo um grupo selecionado e separado, pode-se:


a) procurar mdias de valores para um determinado atributo (pode no ser o utilizado
para montar o ranking);
b) um limiar mnimo para um atributo;
c) um atributo comum ao grupo selecionado;
d) uma combinao de atributos comuns.

Por exemplo, se foi utilizado o total de itens para montar o ranking de clientes, pode-se
descobrir:
a) que a mdia de itens comprados entre eles era X;
b) que a idade mnima era 23 anos;
c) que todos os clientes do grupo selecionado tinham residncia na cidade;
d) que todos estes clientes selecionados tinham renda acima de Y salrios mnimos e
moravam em residncia prpria.

Verificar o que incomum ou diferenas entre grupos

Uma anomalia do mtodo descrito antes, que as caractersticas comuns num grupo
podem tambm estar presentes em outros grupos. Um exemplo: uma empresa utilizou o
grfico de Pareto para tentar encontrar as boas prticas de seus vendedores. Ao
identificar os atributos dos melhores vendedores, descobriu que estavam tambm
presentes nos piores.

Pode-se dividir o grupo todo em partes para comparar caractersticas, a fim de encontrar
o que diferencia um grupo de outro. Por exemplo, uma tcnica muito utilizada para
entender bons e maus pagadores em sistemas financeiros dividir os clientes nestes 2

109
tipos de grupos e ento analisar o que h de comum internamente a cada grupo. Depois
ento, os atributos que caracterizam cada grupo so comparados em busca das
diferenas.

Um problema que pode acontecer se no forem encontradas caractersticas comuns em


cada grupo. Ento, pode-se analisar algumas amostras de cada grupo. Por exemplo, ao
se analisar um grupo de mquinas que falhavam antes do tempo previsto, no se
encontrou nenhuma caracterstica comum. Entretanto, cada uma delas tinha uma
caracterstica nica, que a distinguia das demais deste grupo. Comparando 1 caso onde
o defeito ocorreu com 1 caso onde no houve o defeito, chegou-se a uma caracterstica
que havia no primeiro e no ocorria no segundo. Esta foi uma tomada ento como uma
hiptese de diferena entre os grupos. Ento fez-se uma anlise estatstica para saber a
frequncia da presena ou ausncia da caracterstica em cada grupo. A probabilidade
no era 100% em cada grupo mas bastante significativa.

Este o Mtodo da Diferena de William of Ockham (segundo Losee).

O grande defeito seguir por caminhos errados, levando a perda de tempo e esforos.
Imagine pegar justamente as excees. Mas muitas vezes, so caminhos que devem ser
trilhados na falta de hipteses.

Benchmarking e Analogias

Uma maneira de levantar hipteses iniciais utilizando benchmarking, ou seja, vendo o


que j havia acontecido antes com outras empresas ou em situaes semelhantes. Este
o princpio das heursticas, j comentado antes. Muitas vezes podemos reutilizar
solues que deram certo em outra rea. A tcnica de benchmarking significa olhar e
aprender com outras empresas. A soluo de um programa de computador que no
"roda" pode vir de uma ideia de um brinquedo que no funciona. A causa para defeitos
num processo de produo pode vir da anlise de defeitos em carros. claro que
pessoas, empresas e mercados so diferentes, so organismos vivos. E por isto, talvez
seja necessrio alguma adaptao na soluo, pois ela provou funcionar em outro
contexto ou rea, mas pode no funcionar neste exatamente igual numa nova situao.

Por isto, um esquema visual importante, pois podemos visualizar problemas e


solues. Se compararmos dois casos com informaes diferentes, talvez o padro
visual seja o mesmo. Mapas mentais, anagramas, grafos podem ajudar (adiante veremos
um caso com mapas mentais).

E tambm preciso ter informaes e conhecimentos diversos. Por isto to importante


conhecer vrios assuntos e no ser um "especialista burro".

O perigo das analogias, segundo Popper, generalizar demais ou de forma errada. Ele
conta o caso de cachorros que foram aterrorizados com cigarros. Aps, cada vez que um
destes via um papel branco enrolado, ele fugia. No caso, o fator real (causa raiz) era o
fumo e no o papel que enrolava o fumo. Mas at mesmo o ser humano confunde as
causas.

110
"Reframe", repensar o problema

Eu gosto do termo "reframe" associado a criatividade e soluo de problemas. Reframe


repensar o problema com outros esquemas, pontos de vista, elementos, dados,
contextos, regras, etc. Talvez o momento Eureka dependa de vermos o problema com
outros olhos, sem mesmo precisar mudar as informaes ou o contexto. Basta "pensar
diferente".

No se pode simplesmente ficar em cima de um problema usando os mesmos


paradigmas; o resultado ser sempre o mesmo. Repensar tem que ser "reformular". Por
isto que quando temos um problema devemos sair do ambiente, fazer outra coisa (ex.
Arquimedes). Muitas vezes fazemos isto e quando voltamos "enxergamos" a soluo de
primeira e pensamos: "por que no vi isto antes ?"

Para reformular, temos que nos libertar das regras que estamos usando. Einstein, Galileu
e Darwin quebraram paradigmas. Mas para isto, precisaram se libertar das teorias
aceitas em suas pocas. Se pensarmos que um problema s tem uma soluo possvel
(ou caminho para a soluo), a tendncia tentar colocar os dados num esquema que
leve por este caminho. por isto que muitas solues aparecem em sonhos, porque
quando dormimos a parte do crebro que dita regras e conexes lgicas est dormindo
tambm. Por isto que sonhamos coisas estranhas, sem lgica. Mas tambm o que
permite conectar diferentes matrizes e fazer associaes novas (que acordados no
fazemos).

Uma sugesto utilizar esquemas diferentes para representao ou descrio do


problema. Podemos usar diagramas (esquemas visuais), textos, imagens em sequncia
(storytelling), planilhas e at mesmo gravaes de udio (segundo a Neurolingustica,
algumas pessoas retm melhor as informaes ouvindo, outras vendo, outras tocando,
etc.).

Precisamos voltar, tomar direes diferentes, usar dados diferentes, observar detalhes
que talvez no fossem considerados to importantes, refazer as perguntas. Sair das
regras normais e hbitos, ver o que est escondido (hidden analogies). justamente o
contrrio de usar analogias e benchmarking.

Recentemente, surgiu uma explicao possvel para as pedras (algumas com mais de
300 quilos) que se movem sozinhas no lago seco de Racetrack Playa, no deserto de
Mojave nos EUA. Elas deslizam pelo solo deixando marcas bem visveis atrs delas. O
gelogo da NASA Ralph Lorenz acredita que as rochas so movidas pela ao dos
ventos e da gua. Ele acredita que elas ficam envoltas em gelo durante o inverno, ento
quando o leito do lago derrete e fica lamacento, o gelo permite s pedras deslizar sobre
o barro, impulsionadas pelos ventos fortes do deserto.

111
Quebra de Paradigmas

J comentamos que os hbitos so bons para filtrar opes e economizar tempo. Mas h
o perigo de ficar preso a solues pr-determinadas ou tradicionais. H heursticas (no
comprovadas cientificamente) que acabam guiando as nossas decises. Por exemplo,
muitos executivos demitem funcionrios para reduzir custos. a soluo mais comum,
mais tradicional e muita vezes mais fcil para quem faz (no para quem demitido).
Outro exemplo: muitas empresas pensam que no se investe na crise; mas o livro de
Carlos Domingos (Oportunidades Disfaradas) conta justamente casos de sucesso que
contrariaram esta regra.

Muitas vezes, a soluo passa por quebrar paradigmas. Segundo Thomas Kuhn, no seu
famoso livro A estrutura das revolues cientficas, paradigmas so realizaes
cientficas universalmente reconhecidas que, durante algum tempo, fornecem problemas
e solues modulares para uma comunidade de praticantes de uma cincia. O paradigma
orienta pesquisas de um grupo; um modelo ou padro aceito.

Um paradigma uma maneira de ver o mundo. E isto pode mudar. Kuhn comenta o
experimento de utilizar um culos que inverte a imagem (descrito por Harvey Carr). As
pessoas se acostumam e conseguem viver normalmente.

A quebra de paradigma uma nova forma de ver as mesmas coisas talvez at com os
mesmos instrumentos. Foi o que aconteceu em vrias quebras de paradigma na
Astronomia. Em muitos casos, o mesmo instrumento (luneta) era utilizado focando no
mesmo lugar no espao. Mas as hipteses eram diferentes. E a novos detalhes
aparecem, fazendo ento a teoria se modificar.

Entretanto, uma teoria pode ser aceita mesmo sem explicar todos os fenmenos.
Quando surgem contra-exemplos, a teoria no deve ser rejeitada mas adaptada. Para
rejeitar uma teoria, preciso ter outra para substitu-la.

As revolues cientficas so justamente episdios de desenvolvimento no cumulativo,


nos quais um paradigma mais antigo total ou parcialmente substitudo por um novo,
incompatvel com o anterior. O pr-requisito para a substituio o funcionamento
defeituoso do modelo. Uma nova teoria no precisa estar em conflito com a antiga; pode
tratar de assunto novo (como a fsica quntica) ou ser de maior grau (englobar outras
menores).

claro que h propriedades inatas e irredutveis, as quais no so nunca questionadas e


no precisam ser constantemente avaliadas, o que tornaria o raciocnio muito mais lento.
Em cada empresa, h princpios bsicos irredutveis. Por exemplo, algumas empresas de
varejo definem posies de estoque mnimo e no voltam a question-las. Setores de
RH definem critrios de avaliao de pessoal e nunca os rediscutem. Departamentos de
venda definem ndices para premiar vendedores e so sempre os mesmos que ganham.

112
Descoberta por acaso (serendipity)

Serendipity um neologismo ingls que significa fazer descobertas por acidente, sorte
ou acaso. A origem da palavra relatada no artigo de Pek Van Andel e creditada ao
escritor britnico Horace Walpole em 1754.

Entretanto, a sorte favorece a mente preparada (frase associada a Pasteur por vrios
autores, entre eles Koestler e Johnson). Isto quer dizer que, para descobrir algo por
acaso, preciso ter informaes, hipteses, testes, ideias, etc.

falso acreditar que Arquimedes resolveu o problema do Rei sem nada saber. Antes,
ele estudou muito o problema e possveis solues. Mesmo aqueles que sonharam com
solues porque estavam, durante o dia, colhendo informaes. Talvez o momento
Eurekha tenha sido a juno das peas do quebra-cabea (como Koestler e Johnson
dizem ser um dos passos essenciais para a criatividade). Mas ento antes era preciso
colher e analisar as peas.

9.2 Sinais fracos, fatos X opinies, rumores e boatos

Estamos acostumados a pensar que toda deciso deve ser baseada em fatos e raciocnio
lgico. Em geral, as pessoas relutam em usar dados no confirmados ou mesmo que no
sejam quantitativos (nmeros). Entretanto, como j discutimos antes, pela racionalidade
limitada, nem sempre possvel coletar e analisar todos os dados e alternativas
necessrios, ou mesmo verificar a veracidade de tudo o que ouvimos e lemos. Em
muitos casos, utilizar uma informao no confirmada, pode ser o pulo do gato na frente
dos demais concorrentes.

Por exemplo, a maioria dos investidores das bolsas de valores utilizam softwares que
analisam dados histricos e fazem previses atravs de tcnicas de Data Mining
(minerao de dados). Mas todos os investidores tomarem decises da mesma forma
(com os mesmos dados e tcnicas), ningum vai ganhar. Para vender, preciso que
algum compre e vice-versa. Ento, para ganhar na Bolsa preciso ter uma viso
diferente dos outros, sobre algo que pode dar certo ou errado, enquanto os outros esto
pensando o contrrio. Isto, claro, aumenta o risco e a probabilidade de erro, mas
tambm aumenta as chances de sair ou estar frente. Se formos esperar para confirmar
todas as informaes, nunca vamos tomar uma deciso.

Gunther diz que precisamos tambm utilizar dados subjetivos, como os sentimentos.
Precisamos ouvir os nossos prprios sentimentos. Isto no significa confundir intuio
com desejo. Um forte desejo pode parecer uma forte intuio. Decises tambm podem
ser tomadas com base em informaes ainda no confirmadas, como opinies e
rumores.

Existem informaes que sozinhas no significam muito, mas quanto integradas podem
ajudar a predizer eventos. Estes so os chamados sinais fracos (weak signals) segundo
Ansoff (1980). Sinais fracos so aqueles pedaos de informao, ambguos, vagos,
incompletos, imprecisos e controversos. No so claros; so quase mudos. Esto
normalmente escondidos no rudo e no recebem muita ateno no processo de deciso.

113
So informaes mal estruturadas, esparsas e desconexas. No so certezas, mas pistas.
Podem surgir na forma de frases, fotos, cheiros, imagens, desenhos, pedaos de artigos
ou qualquer observao pronunciada por algum. Nesses fragmentos esparsos pode
residir um potencial informativo importante para a investigao.

Os sinais fracos analisados separadamente, no significam nada. Gradualmente se


integram para formar um padro de inteligncia, que do alertas de necessidades de
mudanas. Tornam-se fortes quando combinados com outros sinais. "Uma andorinha
sozinha no faz vero", mas vrios bandos voando na mesma direo em dias diferentes
e por um certo tempo devem significar algo importante. por isto que as postagens em
twitter, blogs, Facebook e outras redes sociais esto sendo monitorados por
departamentos de inteligncia, seja em empresas, governo, partidos polticos e at pais e
familiares (a importncia da anlise de textos na Web ser discutida mais adiante).

Sinais fracos podem gerar grandes influncias nos resultados. A Teoria do Caos
(Gleick, 1989) explica que pequenas alteraes em algumas variveis podem modificar
completamente o resultado final. Da que surge o tal efeito borboleta (uma borboleta
voando no Brasil pode gerar uma tempestade no Texas). Gladwell, no livro Ponto da
Virada (2013) tambm comenta sobre pequenos eventos que desencadeiam grandes
revolues. H muitos exemplos na moda e no marketing. Nate Silver fala de um sinal
que foi desconsiderado para um terremoto na Itlia: sapos deixaram de desovar 5 dias
antes.

Outro caso interessante com relao anlise de atrasos em voos. Muitas companhias
descobriram que a etapa de limpeza da aeronave nas escalas era um determinante para
os atrasos. Antes relegada a um fator de pouca importncia no tempo da viagem, a etapa
de limpeza recebeu foco de equipes de planejamento. A TAM ento passou a usar um
tapete vermelho para clientes limpares os ps na entrada. A GOL projetou um esquema
em que os clientes ajudam na limpeza interna. E tudo isto deu certo.

J Pentland estuda outros tipos de sinais fracos, o que ele chama de sinais honestos.
So sinais que aparecem nos rostos das pessoas, impercebveis no cotidiano pelo olhar
humano, muito porque acontecem num tempo menor que um piscar de olhos. Quando
assistimos vdeos em cmera lenta, tais sinais aparecem claramente. Pentland e sua
equipe utilizam tecnologias para detectar estes sinais honestos. Os sinais podem ser
demonstraes de empatia para facilitar e encorajar comunicao (ex.: acenos com
cabea) ou podem indicar estresse. E no aparecem somente no rosto, mas so
demonstrados por todo o corpo humano. A linguagem dissimula emoes, mas o corpo
no as consegue esconder. J h at taxonomias para anlise de expresses faciais
(Ekman e parceiros; Kring e Sloan, 2007)

O ser humano intuitivamente consegue identificar tais sinais. o que muitos dizem de
uma conversa olho no olho para conhecer melhor uma pessoa. As decises referentes a
escolha ou avaliao de pessoas so feitas assim. Mas tambm servem para avaliar
veracidade de argumentos e informaes que os outros nos passam. Saber reconhecer
tais sinais pode melhorar nossa tomada de deciso. Os estudos de Pentland concluram
que empregados que se valem de interaes cara a cara acabam sendo 30% mais
produtivos.

114
Gladwell comenta sobre o poder dos boatos, que podem ajudar ou atrapalhar. Ele
comenta o caso de um boato espalhado entre americanos para resistncia aos ingleses, e
que acabou tendo uma forte influncia na independncia americana.

O importante saber juntar os sinais fracos, entender suas relaes, seu poder de
conjunto e para onde apontam. Para Nate Silver, havia dados suficientes para prever o
ataque terrorista de 11 de setembro. O problema no era a carncia de informaes, mas
sim que as peas no foram corretamente juntadas (exatamente como aconteceu nos
ataques a Pearl Harbor). O que faltava era exatamente uma teoria que pudesse explicar
os dados em conjunto, um padro que indicasse um evento significativo ou mesmo uma
hiptese por menos provvel que fosse.

Lesca (2003) apresenta uma metodologia para anlise de dados sobre mercado
competitivo, onde os chamados "sinais fracos" so tambm considerados. Isto inclui
opinies e at mesmo boatos. A ideia no descartar nada. A metodologia de Lesca
interessante porque demonstra como conectar dados e sinais fracos, para gerar
hipteses. Talvez o conjunto final de dados possa mostrar uma tendncia que os
nmeros no apresentavam. Parte desta metodologia ser discutida adiante.

Outro exemplo: uma empresa no sabia mais como lidar com quebras em suas
mquinas. J havia investigado tudo: fornecedores, tempo de uso, qualidade dos
operadores, qualidade das peas que substituam outras, temperatura durante o uso, as
variaes de temperatura (uso X descanso) e at mesmo a temperatura ambiente. E nada
de encontrar um padro. A algum suspeitou que a trepidao das mquinas era
diferente. Colocaram sensores para medir o quanto cada mquina trepidava.
Descobriram que as medidas eram diferentes mas no havia um padro. No encontram
um motivo para haver diferenas nas trepidaes, analisando as variveis j descritas
antes. A, outro algum suspeitou que a diferena nas trepidaes poderia estar no tipo
de piso usado na empresa. Nada. Eram todos iguais. A outro algum, analisando onde
ficavam as mquinas que mais davam problemas, descobriu que o andar onde estava
que fazia a diferena. Mquinas em andares mais altos tinham histrico maior de falhas
e quebras. Concluindo: as diferenas na estrutura do prdio eram a causa dos problemas.

9.3 Anlise de causa-efeito

Um dos grandes objetivos de um processo de BI encontrar causas para eventos


ocorridos ou padres descobertos. Por exemplo, sistemas gerenciais podem ajudar a
descobrir que tipo de cliente mais lucrativo para a empresa. Mas BI tem que explicar
por que este tipo mais lucrativo e outros no. Sistemas gerenciais apontam os produtos
mais lucrativos. BI deve dizer por que estes produtos e no outros so mais lucrativos.
Sistemas gerenciais sobre dados de estoque e logstica identificam quais produtos do
mais custo porque precisam ficar mais tempo armazenados. BI tem que permitir
descobrir por que tais produtos no podem girar ou viajar mais rapidamente.

Ento uma das tarefas do processo de BI engloba buscar causas para efeitos observados.
Por exemplo, no McDonalds, o sanduche Big Mac fica pronto mais rpido que os
demais porque vende mais ou vende mais porque fica pronto mais rpido ? Se outro

115
sanduche ficasse pronto primeiro, ele seria o mais vendido ? o velho problema de o
que vem primeiro: o ovo ou a galinha ? Gladwell, no livro O ponto da virada, comenta
a relao entre pessoas confiantes e o ato de fumar. O que gera o qu ? a confiana
que faz a pessoa fumar ou o ato de fumar que deixa a pessoa mais confiante.
A primeira tarefa identificar causas de efeitos avaliar a correlao entre as variveis ou
eventos. A correlao uma tcnica estatstica que avalia a similaridade entre 2 vetores
de nmeros, 2 grficos ou 2 sries. O coeficiente de Pearson um dos mtodos mais
utilizados. Quanto mais prximos os nmeros na ordem, maior o grau de correlao
entre os vetores. Para uma empresa importante avaliar a correlao entre suas aes e
os resultados. Por exemplo, uma empresa descobriu que um aumento de 5 pontos na
atitude comportamental dos empregados implicava em 1,3 ponto de incremento na
satisfao dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa.
Tal descoberta permite empresa avaliar onde investir e o quanto. Neste exemplo, se
ela quiser aumentar 1% das vendas talvez tenha que aumentar 10 pontos na atitude dos
colaboradores.
Como j discutimos antes, correlao entre eventos ou variveis no necessariamente
implica em que um seja causa de outro. Conforme Hans Reichenbach, citado por
Tsamardinos e Sofia Triantafillou (2011), se A e B esto correlacionados, ou A causa B,
ou B causa A, ou eles compartilham uma causa comum. Eu ainda acrescentaria que
pode ser uma sincronicidade, como discutido antes, caso no haja uma frequncia
mnima. O famoso teste de Granger pode ajudar a identificar se h uma relao causal
numa correlao.

Alm disto, uma causa pode ser direta ou indireta. Em muitas empresas, costuma-se
relacionar os ndices de venda ao desempenho dos vendedores. Mas muitas vezes so
esquecidas causas indiretas. Por exemplo, as propagandas feitas pela empresa podem
ajudar um vendedor e prejudicar outro. Os tipos de clientes ou regies pelas quais cada
vendedor ficou responsvel pode ser o determinante, isentando o vendedor e suas
atitudes do resultado final. Outro exemplo: a causa para o custo elevado de um produto
pode estar na raiz da cadeia de suprimentos.
Causas indiretas podem gerar o evento mas com muitos laos intermedirios. Imagine o
caso de uma virose que deixa vrias pessoas com problemas estomacais. Se todos
comeram no mesmo restaurante, isto pode ser uma causa comum e direta. Entretanto,
pode ter ocorrido de uma pessoa ter comido algo e depois passado o vrus para outro
que passou para outro e assim por diante.

Na rea de sade, muito comum confundir sintoma com causa. A causa vem primeiro
e os sintomas ou sinais aparecem depois. Mas h casos complexos onde fica difcil
determinar o que causa e o que efeito. Por exemplo, gua no pulmo consequncia
ou causa de problemas cardacos ? e diabetes, causa ou consequncia de problemas de
m circulao ?

Outra questo a cuidar que a causa pode ter ocorrido logo antes do evento efeito ou
muito tempo antes. Uma promoo publicada num jornal talvez gere resultados no
mesmo dia. Mas uma campanha nas redes sociais talvez demore mais tempo para gerar
resultados positivos. Levitt e Dubner (no livro Freakonomics) levantam a possibilidade
de a liberao de abortos ser uma das causas para diminuio de crimes nos EUA no
final de 1989. Mas os 2 eventos estariam relacionados numa diferena de tempo de 20
anos. Esta a chamada correlao assncrona que j foi discutida antes neste livro.
116
Aqui devemos distinguir causas determinsticas de causas provveis. O determinismo
ocorre quando a causa leva aos efeitos em 100% dos casos e sem nenhuma dvida.
Quando no h certeza, devemos tratar a relao causa-efeito de forma probabilstica.
Isto acontece em modelos ou padres onde h excees.

Para poder avaliar o determinismo da causa sobre o efeito, necessrio avaliar tambm
outros eventos no contexto. Como j discutimos antes, BI no acontece num mundo
fechado. Se as vendas caem ou sobem inesperadamente num determinado ms, no
significa que as aes da empresa foram a causa. As aes dos competidores, os eventos
que acontecem na cidade ou sociedade, as questes econmicas, etc., podem ser causas
mascaradas.

Uma maneira de avaliar qual realmente a causa para um efeito colocar num banco de
dados todos os eventos que podem estar relacionados e a utilizar tcnicas estatsticas
(como anlise de correlao e teste de Granger) para filtrar candidatos a causas.

Em muitas vezes teremos que refazer as situaes ou eventos e ento fazer novas
observaes. A cada novo experimento realizado, precisamos monitorar as causas
candidatas e registrar tudo num banco de dados para anlise estatstica.

Outra tcnica til gerar um grafo relacionando possveis causas a efeitos. Cada relao
de causa-efeito recebe uma probabilidade. Depois podemos analisar o grafo com os
seguintes Axiomas Causais de Markov e de Rei:
a) causas imediatas geram efeitos independente de causas remotas; por exemplo,
infeco causa doena, independente de como se foi infectado (axioma de Markov);
b) uma causa comum pode gerar dois ou mais efeitos independentes; por exemplo,
fumar pode causar cncer e dedos amarelados, mas um efeito no tem a ver com outro
(axioma de Reichenbach).

Um ltimo cuidado com causas escondidas. Forster discute a alta frequncia de


doenas de corao entre os que bebem caf. H estatisticamente uma correlao entre
as duas variveis: a doena aparece mais no grupo dos que bebem, do que na populao
em geral. Entretanto, pode haver uma causa escondida e neste caso h: quem bebe
tambm fuma. Ento precisamos comparar o nmero de casos de cncer de pulmo em
relao ao nmero de fumantes na populao e em relao ao nmero de pessoas que
bebem caf. E por fim verificar a proporo em que as caractersticas aparecem na
mesma pessoa.

Anlise de causa-raiz

Gladwell, no livro Outliers, comenta que acidentes com avies acontecem por acmulo
de erros triviais e pequenos. Ele comenta o caso de uma companhia area que precisou
treinar sua tripulao para se comunicarem melhor em ingls com as torres de controle
em outros pases. Isto porque a m comunicao gerava outros pequenos erros e da
poderia at mesmo causar um grave acidente.

117
O importante ento tentar descobrir a chamada causa-raiz, aquela que gera outras
causas em sequncia ou cascata. Se conseguirmos eliminar a causa-raiz, as demais
causas no acontecero e assim o efeito tambm no acontecer.
Veja o caso das empresas de Eike Batista que perderam muito valor em 2013: uma
empresa estava escorada em outra e dependia dos investimentos se confirmarem nas
outras. Quando a base ruiu, todas caram junto.

Uma das maneiras de analisar causas de efeitos usando o Diagrama de Ishikawa


(1990), tambm conhecido como diagrama de causa-efeito ou espinha-de-peixe (Figura
43). A ideia ir dividindo um efeito em suas causas.
causas. Cada causa pode ser subdividida
tambm, formando novos diagramas de nveis mais detalhados.

Figura 43: Diagrama de Ishikawa (causa-efeito ou espinha-de-peixe)

J comentamos antes o caso da empresa que descobriu que um aumento


aumento de 5 pontos na
atitude comportamental dos empregados implicava em 1,3 ponto de incremento na
satisfao dos clientes, e isto fazia aumentar em 0,5% o faturamento da empresa. A
causa raiz era a atitude comportamental.

Em outro caso, uma empresa gerou diversos diagramas de Ishikawa para entender
causas das reclamaes de clientes. A diviso foi feita em vrios nveis, isto , cada
causa era estudada e suas causas analisadas, gerando diagramas interrelacionados,
formando uma rvore de causas interconectadas.
interconectadas. O interessante que um fator se
repetia em diversas subcausas e diversos ramos da rvore: a competncia dos
funcionrios. A empresa ento focou em treinamentos e conseguir diminuir muito as
reclamaes.

Avaliao sistmica dos dados

Nate Silver discute em seu livre as previses feitas para a eleio de presidente nos
EUA. Ele acredita que, para uma previso ser precisa, no basta saber qual candidato
tem mais preferncias nos estados; preciso avaliar os estados mais importantes e o
conjunto (relaes entre estados).

118
Alm disto, na maioria dos casos, no h uma causas nica e simples; pode haver
causas mltiplas ou multivariadas (como na regresso). Para tanto, necessrio analisar
conjuntos de dados e no dados isolados.

Muitos fenmenos tm como causa um conjunto de eventos anteriores, ou seja, uma


combinao de causas menores. Um usurio acessando um sistema computacional e
errando a senha um evento corriqueiro e normal. Agora, este mesmo usurio errando
diversas vezes a senha, pode ser indcio de tentativa de fraude.

Em outros casos, a causa pode ser um volume grande de eventos do mesmo tipo. Veja a
moda por exemplo. Uma pessoa sozinha usando uma marca ou um tipo especfico de
acessrio no gera efeito, mas vrias fazendo isto gera um efeito exponencial. Este tipo
de fenmeno chamado de ponto da virada, muito bem descrito no livro de Malcolm
Gladwell.

Um dos desafios extrair significado (a chamada abstrao semntica) a partir de um


conjunto de dados aparentemente desconexos. Uma pessoa comprando plstico que
pode ser usado para fazer bombas no significa nada, um evento isolado. Mas se ela
tambm comprar uma mochila, uma passagem de avio e estiver indo para um lugar
onde no tem nenhum conhecido, pode ser algo significativo.

Uma empresa descobriu que suas mquinas s tinham problemas quando a temperatura
no ambiente passava dos 30 graus e um operador inexperiente (menos de 1 ano de
trabalho) estava manipulando a mquina. Notem: eu frisei o E. Ambos os fatores
deveriam estar juntos para gerar o problema.

A abstrao pode ser feito de duas formas: por Generalizao ou por Agregao,
conforme Smith e Smith (1977). Generalizar formar conceitos de mais alto nvel a
partir de fatores menores. Um exemplo de generalizao seria notar que todos os
problemas com uma determinada mquina industrial ocorreram com operadores que
tinham menos de 20 anos. A agregao seria compor eventos mais complexos a partir
de fatores menores. Por exemplo, o mesmo caso (operadores jovens) mas somente em
mquinas adquiridas h menos de um ano (mquinas novas, de modelos novos).

Em alguns casos, os fatores talvez no apaream simultaneamente mas em sequncia.


Ento a causa uma sequncia especfica de eventos. E a ordem pode ser importante. Se
os mesmos eventos ocorrerem em uma sequncia diferente talvez no gerem o efeito.

Ento, resumindo, uma causa pode ser identificada:


pela presena de algum evento especfico; exemplo: um vendedor melhor que
outro porque visita seus clientes enquanto que os outros no o fazem;
pela frequncia de eventos; exemplo: o melhor vendedor visita cada cliente toda
semana (os outros s uma vez por ms);
pela ordem dos eventos; exemplo: o melhor vendedor liga aps visitar seus clientes,
enquanto que os demais ligam e depois visitam.

importante lembrar que, quando estamos falando de causa-efeito, nem sempre


estamos s preocupados com efeitos ruins. Um objetivo um efeito desejado. E
procurar por suas causas tambm importante.
119
Parcimnia conjunto mnimo de causas

Em Cincia, parcimnia a preferncia pela explicao mais simples para uma


observao. Parcimnia um conceito utilizado para focar em relaes ou eventos mais
importantes, aqueles que realmente determinam o efeito. No exemplo anterior dos
problemas em mquinas industriais, podemos ter vrios fatores que so possveis
causadores. Por exemplo: idade do operador, tempo de experincia, marca ou modelo da
mquina, tempo de uso, tempo de vida da mquina, condies ambientais. possvel
que apenas algumas poucas caractersticas sejam realmente causa dos problemas. A
anlise de correlao pode filtrar fatores que no esto associados estatisticamente. Mas
difcil ter um modelo probabilstico que se encaixe em 100% dos casos. O mais
comum ter vrias excees.

Ento digamos, para exemplificar, que:


a) 30% dos casos de quebras das mquinas ocorra com operadores jovens;
b) 20% ocorram com operadores inexperientes;
c) 15% ocorram com mquinas modelo A;
d) 10% ocorram com mquinas modelo B (75% ocorrem com outros modelos em
menor proporo);
e) 50% ocorram em dias de muita umidade;
f) apenas 5% dos casos ocorrem quando os fatores (a), (b), (c) e (e) esto presentes;
g) apenas 3% dos casos ocorrem quando os fatores (a), (b), (d) e (e) esto presentes;
h) 40% dos problemas ocorrem com operadores jovens e inexperientes.

Se a empresa precisa otimizar os investimentos para reduzir os problemas (no h como


gastar para atacar todas as causas), o que ela deve fazer ?

Uma possibilidade seria atacar somente a causa (e) que a que tem maior probabilidade
(50%). Outra seria atacar as causas (a) e (b), pois juntas (conforme item h) do 40%
de probabilidade e podem ser dirimidas com aes semelhantes (e de menor custo).

9.4 Mtodos e Teorias para Investigao

As investigaes cientficas, a percia criminal e o diagnstico mdico so facetas de um


mesmo problema: encontrar causas ou explicaes para eventos.

Por isto, nesta seo vamos falar de algumas metodologias (se que se pode chamar
assim) para investigao. Elas nos orientam como coletar, filtrar e analisar dados, como
desenvolver teorias, como criar e validar modelos, como identificar e definir regras e
leis cientficas ou no.

120
Mtodo Cartesiano

O mtodo de Ren Descartes, que ficou conhecido como mtodo Cartesiano, possui os
seguintes passos ou preceitos:
1. Busca pela verdade: nunca aceitar algo como verdadeiro sem conhecer; receber
as informaes com ceticismo, examinando sua racionalidade e sua justificao;
2. Anlise, ou diviso do assunto em tantas partes quanto possvel e necessrio:
dividir cada uma das dificuldades em tantas partes quanto for possvel e necessrio para
melhor entend-las e resolv-las;
3. Sntese, ou elaborao progressiva de concluses abrangentes e ordenadas a
partir de objetos mais simples e fceis at os mais complexos e difceis.
4. Enumerar e revisar minuciosamente as concluses, garantindo que nada seja
omitido e que a coerncia geral exista.

Mtodo Cientfico

Os passos do mtodo cientfico, de forma geral:


1. Fazer observaes, sistemticas e controladas
2. Levantar hipteses
3. Montar um modelo ou teoria cientficas
4. Realizar novos experimentos e fazer novas observaes
5. Avaliar se as novas observaes corroboram a teoria
6. Caso no corroborem, reciclar as hipteses ou refazer a teoria.

Mtodo indutivo-dedutivo de Aristteles

Segundo Losee, a observao leva a princpios explanatrios (pela induo) e os


princpios geram novas observaes pela deduo (para confirmar).

Por exemplo, ao identificar que um cliente jovem comprou o produto X e depois que
outro cliente jovem tambm comprou o mesmo produto, comeamos a pensar na
hiptese de haver uma regra (princpio) que diga que todo cliente jovem compraria o
produto X (se soubesse que ele existisse). Isto induo. Ela olha para o passado e
procura explicaes.

Se esta regra for verdadeira, ento um novo cliente jovem dever comprar o produto X,
e esta a deduo de uma possibilidade. Ela olha para o futuro.

Podemos tambm pensar na deduo como uma maneira de produzir fatos (mesmo que
histricos) que devem ser verdades. Por exemplo, se descobrirmos que vrias mquinas
da marca XYZ quebraram 2 anos aps o incio de utilizao, podemos pensar que esta
uma regra. E portanto, podemos dizer que as demais mquinas desta marca, mesmo que
ainda no avaliadas, tambm quebraram no mesmo perodo (casos passados mas aidna
no confirmados). Estas dedues (novos fatos) devem ser verificados para confirmar a
regra.

121
Um exemplo mais formal:
A deduo funciona assim:
Tendo a regra A ==> B (A implica em B), se A verdadeiro, ento deduzimos B.

A induo por sua vez assim:


Tendo vrias instncias de A e B e notando a relao de implicao de um A em um B,
induzimos a regra A ==> B (se A, ento B)

Mtodo de Anlise e Sntese de Newton

Anlise significa dividir um problema em problemas menores ou identificar as partes de


um elemento que est sendo estudado. A sntese o caminho inverso, ou seja, a partir
de elementos menores (partes), construir um elemento maior (agregado das partes).

Por exemplo, se estivermos fazendo um caminho e encontrarmos um rio, o qual


devemos transpor. Sabemos que uma ponte pode resolver o problema. Ento, segundo o
mtodo de anlise, pensaramos nas partes que podem compor a soluo (a ponte) e
procuraramos elementos que pudssemos usar para formar a soluo (talvez rvores e
galhos prximos ao lugar).

Pelo lado da sntese, a ideia seria procurar elementos que estivessem disponveis no
momento (prximos ao lugar) e da tentar construir uma soluo com eles. Talvez a
soluo no fosse uma ponte, mas uma canoa ou tirolesa. A soluo dependeria dos
elementos encontrados.

Mtodo de Galileu

Galileu revolucionou o modo como a Astronomia era feita. De seus aprendizados, surge
um mtodo para construo de teorias. Os passos so:
1. Fazer a observao do fenmeno;
2. Resolver a complexidade do fenmeno, identificando elementos, relaes,
quantidades, medidas, etc;
3. Elaborar uma hiptese explicativa;
4. Verificar a hiptese atravs de experimentaes ou novas observaes.

Raciocnio Abdutivo

Segundo Charles Sanders Peirce: "a abduo o processo para formar hipteses
explicativas. A deduo prova algo que deve ser; a induo mostra algo que atualmente
operatrio; j a abduo faz uma mera sugesto de algo que pode ser. Para
apreender ou compreender os fenmenos, s a abduo pode funcionar como mtodo.
O raciocnio abdutivo so as hipteses que formulamos antes da confirmao (ou
negao) do caso."

A abduo funciona assim:

122
Tendo a regra A ==> B (A implicando em B), se B um fato comprovado, podemos
abduzir (como hiptese) que A verdadeiro e tambm causa de B.
Somente testes posteriores podem comprovar se isto verdade. Mas a hiptese est a.

A abduo se contrape ao mtodo cartesiano. Ela no identifica verdades, nem prova


nada. Mas uma boa maneira de levantar hipteses.

Viso Sistmica e Pensamento Sistmico

Viso sistmica consiste na habilidade em compreender os sistemas de acordo com a


abordagem da Teoria Geral dos Sistemas. Para entender a viso sistmica, primeiro
preciso entender as principais caractersticas de um sistema, dentre as quais:

a) Um sistema um conjunto de elementos inter-relacionados.

Ou seja, um sistema composto por elementos ou partes e assim infinitamente. Os


elementos de um sistema so tambm sistemas (neste caso, subsistemas). Por exemplo,
o motor de um carro tambm um sistema. E desta forma, cada subsistema tambm
possui as 4 caractersticas bsicas. E se os elementos so sistemas, ento eles tambm
so formados por subsistemas (e isto se repete infinitamente).

As partes possuem conexes entre si, segundo alguma ordem ou objetivo comum. Nem
todos elementos esto conectados a todos outros. Podem haver subgrupos, mas sempre
haver alguma ligao entre os grupos.

b) Todo sistema parte de um sistema maior (e isto ocorre infinitamente).

Por exemplo, o sistema carro parte de um sistema maior de trfego, que por sua vez
pode ser considerado subsistema de uma cidade e assim infinitamente.

O que est fora do sistema seu meio-ambiente. O meio-ambiente no pode ser


controlado pelo sistema, mas pode trocar coisas com o sistema (energia, produtos,
materiais, informaes) e por isto, dizemos que o sistema pode influenciar o meio-
ambiente e vice-versa.

Por exemplo: o meio-ambiente de um carro inclui a pista ou estrada, postes e rvores,


edificaes, placas e sinaleiras, outros carros, o clima e a natureza (ex: chuva), etc. Um
exemplo de troca a de combustvel (meio para sistema) e gases poluentes (sistema
para meio).

s vezes, difcil determinar o que est fora ou dentro do sistema. Por exemplo, os
alunos de uma universidade so elementos do sistema universidade ou so meio-
ambiente. Para tirar esta dvida (e outras), verifique se o sistema pode controlar este
elemento. Se sim, ele ser um elemento do sistema. Se no, ele ser um elemento do
meio-ambiente. Neste exemplo, a universidade no pode controlar que o aluno venha
aula, portanto os alunos so parte do meio-ambiente. Um cuidado: a universidade pode
influenciar (persuadir) o aluno a vir s aulas mas no tem controle sobre esta deciso do
aluno.

123
c) Quanto maior a fragmentao do sistema (ou seja, o nmero de subsistemas), maior
ser a necessidade para coordenar as partes.

Por exemplo, mais fcil coordenar um time de futebol de campo (com 11 jogadores
em campo) do que um time de futebol de salo (com 5 jogadores em campo). Por isto,
ningum v peas pequenas (como parafusos) quando pensa em elementos de um carro.
A razo disto que mais fcil visualizar menos sistemas e entender sua integrao;
por esta razo, as pessoas procuram agrupar os elementos em subsistemas.

O nmero de subsistemas arbitrrio e depende do ponto de vista de cada pessoa ou de


seu objetivo. Por exemplo, um carro pode ser visto formado por 2 subsistemas somente
(motor e estrutura); j outras pessoas podero subdividir um carro em parte eltrica,
motor, rodas, chassis, carroceria e estofamentos.

d) O nmero mgico 7 2.

Na dcada de 50, George Miller conclui de suas pesquisa que as pessoas normais
possuem uma certa capacidade de processamento de informaes. Uma das descobertas
que podemos gerenciar de 5 a 9 subsistemas (por isto, o nmero 7 + 2 e 7 2). Isto
quer dizer que uma pessoa consegue gerenciar melhor uma equipe com 5 a 9 membros.
Ou que devemos subdividir os sistemas de 5 a 9 partes para poder entender melhor o
todo.

Se tivermos mais de 9 elementos, teremos dificuldade para gerenciar os subsistemas ou


entender o sistema como um todo. Abaixo disto, estamos com capacidade ociosa.

Esta regra seguida na rea de dividir um sistema baseado em tecnologia em


subsistemas. Ou exemplo na rea, que devemos colocar de 5 a 9 opes no menu
(interface) de um sistema automatizado.

e) Homeostase.

Este princpio diz que os sistemas sempre procuram o equilbrio. Isto quer dizer que, se
uma parte no est funcionando bem, outras tero que trabalhar mais para manter o
equilbrio e para que o sistema consiga atingir seu objetivo.

Por exemplo, se uma pessoa est mancando de uma parte, a outra perna ser
sobrecarregada. Uma infeco no p pode gerar febre e isto afeta todo o corpo; da
mesma forma, outras partes podero ficar infeccionadas. Numa empresa, se o setor de
vendas no est bem, outros setores devem trabalhar mais ou melhor (por exemplo,
marketing).

f) Sinergia
A sinergia pode ser exemplificada pela frmula 1 + 1 = 3. Isto significa que as partes de
um sistema podem interagir para gerar algo maior, o que as partes no conseguiriam
fazer ou atingir se trabalhando isoladamente.

124
Tal princpio tambm pode ser entendido atravs da frase O todo no a mera soma
das partes. Um bom exemplo a gua (cuja frmula H2O). Se estudarmos cada parte
isoladamente, teremos que as molculas de hidrognio se encontram na natureza em
estado gasoso, e o mesmo acontecendo com o oxignio. Mas quando esta partes se
juntam formam uma substncia cujo estado natural lquido.

A sinergia tambm explica por que, muitas vezes, uma equipe de futebol com um
jogador a menos consegue ganhar de outra com maior nmero de jogadores. A resposta
est na integrao entre as partes, que conseguem gerar algo novo.

O pensamento sistmico considerado a Quinta Disciplina, segundo Peter Senge. As


demais so: Domnio pessoal, Modelos mentais, Objetivo comum (viso compartilhada)
e Aprendizado em grupo.

Abordagem Sistmica

A abordagem sistmica uma maneira de resolver problemas sob o ponto de vista da


Teoria Geral de Sistemas. Muitas solues surgem quando observamos um problema
como um sistema e, desta foram, sendo formado por elementos, com relaes, objetivos
e um meio-ambiente.

A vo algumas dicas da abordagem sistmica:

a) dividir para conquistar


Procure dividir o problema em problemas menores. Algum que quer ir de uma cidade a
outra, divide o caminho em partes por onde deve passar (estradas a tomar, sadas,
entradas, conexes).

b) identificar todas as partes do sistema


Procure identificar tudo o que faz parte do sistema. Algumas partes podem fazer a
diferena. Um exemplo clssico o cavalo de tria na guerra entre gregos e troianos. Se
os gregos vissem o problema apenas como uma cidade (Tria) com muros altos e fortes
portes, no teriam conseguido entrar. A diferena aconteceu porque eles entenderam
que o sistema ainda era composto de pessoas e, neste caso, supersticiosos e religiosos
(que no poderiam rejeitar um presente dos deuses).

c) atentar para detalhes


A falta de uma caneta pode gerar o insucesso de um sistema automatizado. Os analistas
se preocupam geralmente com as coisas grandes como computadores, redes e software
de banco de dados. Mas num supermercado, se no houver uma caneta para o cliente
assinar o cheque, de nada ter adiantada gastar milhares de dlares com hardware,
software e treinamento de pessoal.

d) olhar para o todo (viso holstica)


Se algum est perdido numa floresta, sobe numa rvore para poder enxergar onde est
a sada. O mesmo acontece com labirintos. A viso do todo permite entender como as
partes se relacionam.

125
e) analogias
A analogia consiste em utilizar uma soluo S num problema P, similar a uma soluo
S que j teve sucesso num problema P similar a P. Ou seja, o reuso de solues em
problemas similares, com alguma adaptao da soluo. No a toa que o Homem criou
o avio observando os pssaros voarem.

O 4o Paradigma de Jim Gray - a eScience

Milhares de anos atrs, a cincia era emprica, descrevendo apenas fenmenos naturais.
E isto durou at a Renascena e o Iluminismo. H poucas centenas de anos, ramos
tericos surgiram usando modelos e generalizaes. Com o surgimento do computador
e do software, foi possvel elaborar teorias complexas e test-las com simulaes
computacionais (Hey et al., 2009).

Hoje fala-se na eScience: um processo de explorao massiva de dados, combinado com


unificao de teorias, experimentos e simulao.

Cientistas realizam anlises de Big Data, armazenados em bancos de dados no


estruturados, capturados por instrumentos e sensores de ltima gerao, usando
computadores de alto desempenho para simulaes, tcnicas de gesto de informaes e
estatsticas, armazenados nas nuvens e construdos de forma colaborativa.

A capacidade de processamento paralelo, em clusters e grids de computadores (e ainda


processos de comunicao machine to machine) somada inteligncia artificial tem
proporcionado anlises mais complexas, levantamento pela fora bruta de relaes
escondidas, validao de fatos e modelos, e a captura de dados reais em ambientes reais.

Mtodo de Investigao Criminal

Existem diversos manuais e artigos com dicas para investigao criminal e percia.
Basta procurar na Web por "crime scene analysis/investigation/evidence". Separei
algumas dica de um manual que encontrei na Internet. (Clarke e Eck)

analisar o ambiente do crime


usar o tringulo de anlise de problema: criminoso + vtima + local; para o
criminoso, sempre h pessoas que o conhecem; para a vtima, h pessoas tambm
que o conhecem; para o local, deve haver um gerente ou dono
saiba que a oportunidade faz o ladro
coloque-se no lugar do criminoso
eventos podem ser recorrentes ou ter outros similares (mtodo CHEERS)
estude a jornada ou sequncia temporal do crime
fique atento aos ritmos temporais (dia, semana, ms)
utilize o mtodo 5W+2H
procure os facilitadores do crime
considere as caractersticas geogrficas
monte uma histria que faa sentido

126
O famoso "Unabomber", que enviava cartas bomba para cientistas com o intuito de
parar a evoluo tecnolgica, foi identificado por suas prprias cartas: seu estilo de
escrita denunciou sua formao, detalhes do papel e da impresso indicaram o tipo de
mquina que usava e ainda os locais de postagem. Mas a dica final veio de um familiar.

Mtodo do Sherlock Holmes

Investigar causas como investigar um crime. Sherlock Holmes tinha seu mtodo,
utilizado em vrios livros deste personagem mas descrito primeiramente no livro Um
estudo em vermelho de Doyle.

Holmes usava dedues baseado em princpios universais. Por exemplo, no seu


primeiro livro, Holmes infere a altura da pessoa que escreveu uma mensagem na parede,
usando como fundamento o princpio (a regra) de que as pessoas costumam escrever na
altura dos olhos.

Em outros casos, ele mesmo gerava suas regras, segundo o mtodo indutivo.

Mas muitas vezes, o mtodo de Sherlock Holmes era o mtodo abdutivo e no o


dedutivo. Em alguns casos, ele tinha um fato confirmado (um evento j ocorrido) e
utilizava uma regra universal de causalidade. A partir de relaes de causa-efeito, ele
supunha causas para os eventos ocorridos.

Holmes tambm usava os mtodos de anlise e sntese, o mtodo cartesiano, e outros.


Mas talvez seu grande diferencial estivesse na sua forma nica de coletar informaes e
fazer observaes que nenhum outro conseguia repetir. Como j discutimos antes em
outra seo, o mtodo de coleta e observao importante para a anlise de causas.

Holmes criticava as pessoas que atulhavam o crebro com detalhes inteis, soterrando
hipteses promissoras. O personagem ressalta a importncia tambm do estudo
meticuloso e sistemtico, aconselhando evitar formar teorias antes de possuir todos os
indcios, pois isto poderia distorcer o raciocnio.

Holmes tambm aconselha utilizar o raciocnio retrospectivo, reconstruindo passo a


passo os acontecimentos e sua ordem. Ele complementa dizendo que mais fcil
raciocinar para frente, na direo do tempo, mas isto pode fazer esquecer o processo
inverso.

Quanto s circunstncias fora do comum, ele diz que constituem mais uma orientao
do que um obstculo.

Diagnstico Mdico

O processo de diagnstico mdico tem por objetivo primeiro identificar a doena


(causa) para as queixas de pacientes (e depois ento prescrever tratamentos). Para tanto,
preciso analisar sinais (visveis ao mdico), sintomas (informaes prestadas pelo
paciente sobre o que est sentindo) e tambm exames tcnicos (imagens, radiografias,
etc.).

127
As primeiras informaes so coletadas na chamada anamnese. Alm das informaes
atuais (sinais, sintomas e exames recentes), necessrio perguntar sobre a histria
pregressa do paciente, o que inclui sabre sobre doenas anteriores. Complementa a
anamnese a coleta do histrico familiar (informaes sobre doenas de familiares), dos
hbitos (alimentares, dirios, etc.) do paciente e de suas condies e ambientes sociais e
profissionais (fonte: Porto, 2005).

O objetivo compor um quadro que possa classificar o paciente segundo casos


semelhantes j estudados e a poder determinar a causa (doena). claro que as doenas
so as mesmas, mas os pacientes so diferentes. E portanto a forma como uma doena
se manifesta ou sua origem em cada paciente pode ser bem diferente. No estamos nem
falando de doenas raras ou desconhecidas, o que seria um trabalho ainda mais
complexo.

Um sintoma deve ser analisado de forma contextual. Ele possui um incio no tempo,
uma durao e pode evoluir para caractersticas diferentes. importante entender as
caractersticas no momento em que o sintoma surgiu e tambm as mudanas ao longo
do tempo.

Neste momento, talvez algum que trabalhe com mquinas industriais esteja se
perguntando o que pode aprender com o diagnstico mdico. Mas temos que lembrar
que mquinas tambm apresentam sintomas e sinais, s que no nos dizem isto. Mas
podemos observar e at mesmo coletar tais dados com sensores.

9.5 BI como um ato de criao

Um objetivo d a direo, o foco, ilumina o caminho; mas a criatividade faz sair das
regras e encontrar novos caminhos (hipteses). O processo de BI , de certa forma,
semelhante a um msico procurando uma nota que faa a conexo entre 2 partes de uma
msica, um investigador policial procurando o autor de um crime, um mecnico
investigando a causa de um defeito em uma mquina, um pintor procurando um meio de
expressar suas ideias mentais e surpreender aqueles que olham sua obra.

Mas para que o momento Eureka ocorra, algumas coisas devem acontecer antes. O
insight da soluo no vem por acaso, como Koestler e Johnson descrevem em tantos
exemplos nos seus livros. Arquimedes s viu a soluo porque tinha estudado
ardentemente o problema que lhe havia sido imposto, porque estava estudando outros
temas e conseguiu conect-los.

Segundo Koestler e Johnson, 2 elementos principais so necessrios (entre outros):

a) Maturao de ideias
Koestler fala em ripeness. Steven Johnson fala em palpite lento (slow hunch).
Isto significa muito estudo. Coletar muitas informaes, propor teorias (hipteses),
testar a teoria com exemplos reais e refazer o processo muitas vezes. Tim Berners-Lee
maturou a ideia da WWW por mais de 10 anos. E perseverou. Christianson (2012)

128
inclusive apresenta uma cpia do manuscrito original, onde o orientador de Tim escreve
a mo: "vago mas excitante ...".

b) Juno de contextos diferentes


Koestler fala em bissociao de matrizes (bisociation of matrices); Johnson, em coliso
de ideias (collision of hunches). Koestler descreve como passar repentinamente de um
plano (assunto) para outro (como Arquimedes), conectando as partes e gerando uma
soluo nova. Johnson diz que preciso completar nossas teorias com as ideias de
outros.

preciso tambm ter conhecimentos generalizados, alm dos especializados. Darwin


foi influenciado pelo trabalho do economista Thomas Malthus sobre o crescimento da
populao, a falta de alimento e a possvel morte de pessoas por causa desta
disparidade. E Darwin iniciou sua jornada de estudos investigando pedras (na rea de
geologia). Steve Jobs revolucionou as interfaces homem-computador, criando telas
encantadoras. Boa parte deste sucesso se deve a seus estudos de caligrafia, que o
ajudaram a criar as fontes de textos.

9.6 Associaes Visuais - Anlise de Grafos, Redes e Mapas Mentais

Processos de BI utilizam muito representaes visuais que permitam anlises rpidas e


descobertas atravs de pontos de vista. A representao multidimensional ou atravs de
cubos de dados permite relacionar atributos e verificar associaes entre valores. claro
que a tcnica de Data Mining baseada em associaes pode nos revelar associaes
estatisticamente significativas, mas um grfico permite que a experincia ou o insight de
especialistas humanos possa identificar padres interessantes. Como se diz por a, uma
imagem vale por mil palavras.

Os grafos e mapas mentais ou conceituais podem ser teis para representar conexes
entre conceitos ou ideias. Os grafos podem ser direcionados, como um DAG (directed
acyclic graph), representando por exemplo relaes de causa-efeito ou se um conceito
influencia ou implica em outro. Mas as relaes (representadas graficamente por arestas
entre nodos do grafo) tambm podem representar outros tipos de significados quaisquer.
Por exemplo, podem representar ideias conflitantes, podem representar generalizaes
ou agregaes entre conceitos ou objetos, podem indicar sequncias ou caminhos e por
a vai. Se as relaes no tiverem direo, as arestas podem simplesmente significar que
h uma relao entre 2 conceitos ou ideias.

O interessante que um grafo permite ciclos. Uma hierarquia um grafo onde um


conceito s pode ter um "pai", ou seja, um conceito de mais alto nvel. Um grafo de
generalizaes segue esta regra. Mas uma representao em rede permite ciclos, as
relaes podem representar voltas. Os trabalhos independentes de Albert Laszlo
Barabasi e Paul Baran discutem os princpios bsicos e tipos de redes.

Os mapas mentais so muito utilizados pela Gesto do Conhecimento para representar


conhecimento (e no informaes). J as estruturas e anlises multidimensionais so a
base para o BI. Como juntar estes dois paradigmas ?

129
A Figura 44apresenta um mapa mental que representa tambm a viso multidimensional
dos dados envolvidos na venda de um produto. Se algum quiser ver pelo ponto de vista
do BI tradicional, conseguir ver uma tabela fato sobre vendas, tabelas de dimenses
(vendedores, loja, propaganda, dados de clima, marca, data e hora) e tabelas secundrios
formando um esquema tipo floco de neve (snowflake).

Figura 44: Mapa Conceitual sobre Fatos e Dimenses

Como um mapa mental, podemos ver os fatores que influenciam a venda. Diretamente,
temos clima, loja, marca, propaganda, data hora e vendedor. Entretanto, o esquema
mostra que o vendedor influenciado pela sua motivao e pelo treinamento que
recebeu. E o treinamento possui 3 fatores que influenciam.

Desta forma, podemos pensar nas causas para ndices de vendas bons ou ruins
analisando as causas diretas ou indiretas. O diferencial deste tipo de visualizao
poder descobrir uma causa distante. Por exemplo, um baixo ndice de vendas pode estar
associados a quem ministrou o treinamento (que influencia a qualidade do treinamento,
que por sua vez influencia o desempenho do vendedor, que finalmente influencia as
vendas). Ou quem sabe o aumento das vendas pode ser devido atitude dos vendedores,
que por sua vez receberam um bom treinamento, e este foi de qualidade porque o
ambiente do treinamento foi especial (quando e onde).

Uma rede de varejo estava tendo muitos problemas com mercadorias defeituosas, e
queria diminuir tal prejuzo. Estes problemas foram detectados em todas as lojas. Ento
130
o problema no era na loja. As mercadorias defeituosas vinham de diferentes
fornecedores. Ento o problema no estava tambm no fornecedor (ou na fabricao).
Notou-se tambm que as mercadorias defeituosas vinham apenas dos Centros de
Distribuio (CDs) nmero 1 e 2. Mas todos os CDs utilizam o mesmo processo padro.
Fez-se uma anlise por observao (invisvel) para saber se os funcionrios estavam
realizando o processo de forma diferente do planejado. Nada foi encontrado. Ento o
problema no era no processo especfico de um ou alguns CDs.

Figura 45: grafo para anlise de causas

Uma constatao importante foi que as mercadorias defeituosas tinham sido entregues
por apenas 3 transportadores: a 2, a 3 e a 4. Ento procurou-se saber o que havia de
comum entre estes transportadores. Nada foi encontrado. Pois estes 3 transportadores
utilizam diferentes tipos de caminhes. Utilizando informaes de rastreamento, ou
seja, caminho percorrido pelas mercadorias defeituosas, procurou-se saber se algum tipo
especfico de caminho havia sido utilizado para as mercadorias defeituosas. De novo,
nada foi encontrado, pois as mercadorias defeituosas chegavam com diferentes tipos de
caminhes.

Ento, algum teve a ideia de fazer um grafo, representando os caminhos percorridos e,


incluir no grafo os diferentes tipos de caminhes utilizados. A Figura 45 representa o
grafo gerado. Os crculos em roxo representam os fornecedores, os azuis representam as
transportadoras, os verdes os CDs e os crculos amarelos so as lojas. As flechas
representam o fluxo de mercadorias (todos os tipos), desde os fornecedores at as lojas.

Nesta figura, esto marcados em vermelho os caminhos que geraram mercadorias


defeituosas. Ento notou-se um padro: 2 tipos de caminhes (X e Z) levaram as tais
mercadorias. Mas estes caminhes levaram tambm mercadorias do mesmo tipo das

131
defeituosas e que no apresentavam problemas. E tambm levaram o mesmo tipo de
mercadoria para o CD nmero 3, e ali no foram constatados defeitos neste tipo de
mercadoria. Ento o tipo de caminho no era determinante do problema.

Mas uma constatao importante foi feita: quando um caminho do tipo X ou Z fazia
entregas no CD 1 ou 2, a entrega era feita de forma um pouco diferente. Como nestes
CDs, a movimentao era maior, o processo de descarregar as mercadorias era feito
com algumas alteraes, feitas pelas pessoas sem conhecimento de quem planejou o
processo todo. O mesmo tipo de caminho, ao fazer entregas no CD 3, que tem menos
movimento, no alterava o processo.

Em resumo, pode-se descobrir que a causa dos problemas era uma combinao de
elementos do sistema de logstica desta empresa. A representao visual permitiu
identificar a combinao que gerava os problemas, algo que as planilhas e bancos de
dados no mostravam.

A Figura 46 apresenta uma taxonomia (classificao hierrquica) de assuntos da rea de


Computao. Sobre ela, foram desenhadas conexes direcionadas, que significam a
sequncia com que os temas foram discutidos num frum.

Pode-se verificar as mudanas de tema, se foram drsticas ou pequenas. Pode-se


verificar os temas mais discutidos. Pode-se verificar se houve ciclos, ou seja, se a
discusso voltou a temas j discutidos antes. E o nmero de conexes num ciclo permite
saber se esta volta demorou a acontecer ou no.

Ontologia

Engenharia de Banco de Inteligncia


Software Dados Artificial

Teste de Engenharia de
Data
Software Requisitos Data Mining
Warehouse

Figura 46: grafos combinados com hierarquias

132
Outro tipo de anlise interessante sobre mapas mentais faz-los representando fluxos
de informaes, ou seja, quem fornece informao para quem (ver Formanski et al.).
Nodos representam pessoas e arestas (setas) representam o fluxo de informao de uma
pessoa para outra. As cores indicam o departamento ou setor de cada pessoa. A largura
da seta representa o quanto de informao que passou naquela via. A Figura 47 mostra
um exemplo.

Figura 47: Grafo de comunicao entre membros de equipes

Vrias anlises podemos fazer a partir deste mapa:

a) podemos notar uma sub-rede isolada esquerda com duas pessoas do departamento
amarelo (identificadas como 1 e 2). Elas no trocam informaes com pessoas de outro
departamento. Alm disto, h uma pessoa do departamento "amarelo" (3) que no
interage com estas duas para trocar informaes, mas que est bem "enturmada" com
pessoas de outros departamentos. Provavelmente isto indica um problema a ser
contornado. necessrio que esta 3a pessoa (identificado por 3) interaja com seus
pares. E tambm seria possvel pensar em como fazer com que os 2 funcionrios
"amarelos" (1 e 2) pudessem interagir com pessoas de outros departamentos.

b) podemos notar que h uma pessoa (11) que s recebe informaes. Pode ser um
novato, ainda aprendendo. E h algum (12) que s fornece; pode ser algum
experiente, mas ser que ele ou ela no deve receber algum tipo de informao de
alguma outra pessoa ?

c) a pessoa identificada como 8 est interligando duas sub-redes, a azul e a amarela,


provavelmente um elo ligao importante para juntar duas reas de conhecimento.

133
d) a pessoa identificada por 9 est isolada, tendo somente contato com a pessoa
identificada por 10. Pode ser que 9 seja um aprendiz, que deve ser "sombra" de 10.

e) fora a pessoa 9, a rede azul a mais conectada, pois todos as pessoas deste setor
interagem entre si. J na sub-rede vermelha, o nodo 4 no interagem com 6 e 7. H que
se investigar o porqu disto, se planejado assim ou se um problema.

Determinismo X probabilismo

As arestas num grafo podem representar relaes determinsticas de, por exemplo,
causa-efeito. Mas tambm podemos usar grafos de probabilidades. Neste caso, as
relaes so provveis e no h certeza absoluta. As Redes de Markov e as Redes
Bayesianas utilizam o conceito de probabilidade para marcar relaes entre nodos num
grafo. As Redes Neurais Artificiais tambm utilizam pesos probabilsticos para as
conexes entre os neurnios artificiais.

Num grafo de relaes causais, as relaes entre conceitos (causas e efeitos) recebem
pesos numricos indicando a probabilidade da relao. Isto permite raciocnio lgico
(crisp ou fuzzy) sobre qual a causa mais provvel, independente se a causa est direta ou
indiretamente conectada ao efeito.

Os grafos ponderados (com pesos nas relaes) tambm so teis para que se possa
identificar quais relaes so de maior interesse para anlise. Pesos muito altos podem
sugerir relaes mais importantes num contexto e relaes com pesos muito baixos
podem ser eliminadas por insignificncia (principalmente para limpar um grafo com
muitas conexes).

Descobrir novas ligaes

Um dos casos mais interessantes de descoberta por minerao foi feita por Swanson e
Smalheiser (1997). Eles conseguiram encontrar uma possvel relao entre 2 textos de
assuntos distintos. O texto 1 falava que ...o leo de peixe bom para a circulao do
sangue.... O texto 2 dizia que ... a sndrome de Raynaud est associada com a vaso-
constrio nas pessoas .... A partir da leitura destes 2 textos, eles chegaram hiptese
de que o leo de peixe poderia ajudar no tratamento da sndrome de Raynaud.
Entretanto, no havia na literatura mdica cientfica nenhum texto que falasse de tal
hiptese. Ento eles partiram para experimentos prticos e os resultados comprovaram a
hiptese.

Este problema pode ser esquematizado utilizando-se um mapa mental (ou grafo).
Considerando os seguintes conceitos e suas relaes:
Sndrome de Raynaud  vaso-constrio (relao de causa-efeito);
leo de peixe  boa circulao (relao de causa-efeito);
vaso-constrio  boa circulao (relao de associao).

O mapa pode levantar a hiptese que h uma relao entre a Sndrome de Raynaud e o
leo de peixe. Generalizando, poderamos construir um autmato que sugere novas
ligaes (a serem investigadas) a partir de grafos.

134
A partir da Figura 48, que relaciona conceitos, pode-se:
a) sugerir ligaes para procurar: por exemplo, verificar se h ligao entre A e D (e de
que tipo);
b) procurar evidncias que liguem os conceitos: por exemplo, com a hiptese de relao
entre A e D, procurar se h algum texto falando da relao entre A e D ou ento
podemos fazer algum experimento que concretize ou comprove esta relao;
c) procurar um conceito que ligue outros: por exemplo, ser que existe um conceito X,
tal que A  X  D ?

O mtodo regressivo, proposto por Descartes, assume que uma soluo existe como
hiptese, bastando procurar por ela para comprovar a hiptese.

Figura 48: Grafo com relaes entre conceitos

Este um timo exemplo de como fazer as perguntas certas ajuda a encontrar as


respostas certas. No caso, os referidos autores perguntaram qual a relao entre dois
conceitos, que eles ainda no haviam notado em nenhum texto. O uso de mapas mentais
pode ajudar neste tipo de investigao, para encontrar hipteses iniciais, necessitando
pouco ou talvez nenhum entendimento do domnio (para iniciar; depois sim ser
necessrio um background especializado).

Mapas e informaes geogrficas

Mapas geogrficos podem ser muito teis para levantamento e validao de hipteses.
O diferencial do mapa geogrfico trazer informaes que no aparecem em bancos de
dados tradicionais, tais como distncia, proximidade, tipo de terreno, etc.

Um dos casos mais famosos de anlise de mapas e que permitiu descobrir causas est
relatado no livro The Ghost Map de Steven Johnson. O livro conta a histria do
mdico John Snow que descobriu a causa de mortes e a origem da clera em Londres,
em 1854. Naquela poca, todos diziam (sabedoria popular) que a doena se alastrava
pelo ar. Dr. Snow, a partir de seus conhecimentos, no acreditava nesta hiptese, mas

135
no sabia a real causa. Aps posicionar num mapa da cidade todos os casos, Dr. Snow
percebeu que havia mais mortes prximas de uma fonte de gua. Sua hiptese ento era
de que a gua seria o meio de transmisso. A anlise temporal da disseminao de casos
fortaleceu ainda mais a hiptese, pois os casos aumentavam com o tempo a partir da
fonte de gua. Por fim, as hipteses do doutor foram confirmadas e muitas vidas salvas.

O trabalho de concluso de Robson Jardim resultou num sistema automatizado para o


registro colaborativo de casos de doenas e a gerao posterior de relatrios de evoluo
da doena. Usurios cadastrados podem registrar o local onde o caso ocorreu, o tipo de
doena e a data. O sistema permite aos usurios comparar a evoluo e o deslocamento
de casos de doenas em mapas ao longo do tempo. Na Figura 49, h um exemplo de
como podemos ver o surgimento de novos casos em dois momentos diferentes,
permitindo inferir uma direo de deslocamento da doena.

Hoje em dia, com a constante preocupao com novos vrus e a disseminao cada vez
mais rpida de epidemias, uma ferramenta visual pode apoiar anlises e dar subsdios
para decises de entidades de sade e governos.

Figura 49: mapa para anlise de evoluo e disseminao de doenas

Uma Metodologia Associativa

Nesta seo, apresento um framework (esboo de metodologia) para utilizao de


mapas mentais/conceituais para anlise de informaes.

As informaes so representadas por conceitos (nodos do grafo) e relaes entre os


conceitos (arestas, direcionadas ou no). Estas relaes podem ser de diversos tipos
(causalidade, conflito, exemplo, corroborao, instncia, etc.). Associaes entre
conceitos so a forma como o crebro humano funciona. de onde tiramos a
inteligncia, conectando conhecimentos e ideias.

O mapa serve para representar causas (diretas ou indiretas) de eventos, relaes entre
eventos, relaes entre causas, instncias, generalizaes, etc. uma metodologia
genrica que pode ser aplicada a diferentes contextos com o objetivo de facilitar o
entendimento de um problema.

136
O framework aqui apresentado baseado na metodologia L.E.SCAnning de Humbert
Lesca (tambm discutida nos trabalhos de Caron-Fasan, Janissek-Muniz e Blanco.

Os passos da proto-metodologia so:

1. Levantar fatos ou evidncias ou sinais fracos


2. Agrupar informaes relacionadas (ex.: assuntos ou temas)
3. Identificar relaes entre as partes de informaes
4. Finalizar o Mapa Mental (informaes e relaes entre elas)
5. Validar Mapa (reavaliar conceitos e conexes)
6. Descoberta de conhecimento.

A coleta de informaes (passo 1) pode inclusive considerar informaes ainda no


verificadas ou confirmadas. O objetivo trabalhar com unidades de informao, que
podem ser representadas por expresses ou frases curtas. Estas informaes podem vir
de fontes tais como notcias, livros, artigos, palestras, postagens em fruns e redes
sociais, boatos, relatrios internos da empresa, publicidade e reportagens pblicas, etc.
Tambm podem ser utilizados dados numricos, vindos de relatrios ou estatsticas.
Pode-se fazer um filtro inicial para focar num objetivo (ou ento coletar tudo como no
modo proativo discutido antes).

O passo 2 serve para agrupar informaes por similaridade ou por assunto, usando
marcadores (labels) para os grupos. O mapa mental j pode comear a ser feito. Pode-se
usar um smbolo diferente (ex. quadrado) para dizer que h vrias unidades de
informao dentro de um conceito. A Figura 50 apresenta um exemplo deste passo da
metodologia. Nela podemos ver grupos de informaes j categorizados por assunto.
Imagine que estas informaes foram coletadas a partir de notcias, reportagens,
propagandas, blogs, comentrios de especialistas no assunto e etc.

Figura 50: Metodologia Associativa - passo 2

O passo 3 dever identificar relaes entre as unidades ou grupos de informaes. Estas


relaes podem ser de causa, contradio, explicao, efeito, consequncia, conflito, etc

137
(no h limites). O importante deixar explcito no mapa o tipo da relao. Podem ser
usados smbolos diferentes para os diferentes tipos de relaes. Neste momento, se h
uma relao entre 2 conceitos mas no se sabe o tipo, deve-se manter a conexo, mesmo
sem a determinao do tipo (que depois ser avaliado). possvel manter conceitos
contraditrios, marcando este tipo de relao entre eles. A verificao
verificao da veracidade
ser feita mais tarde. A Figura 51 apresenta o grafo da figura anterior (mesmo exemplo)
j com as relaes entre conceitos.

Figura 51: Metodologia Associativa - passo 3

O passo 4 consiste em analisar a consistncia do mapa, revisando conceitos ou grupos e


suas relaes, eliminando conexes sem significado ou sem incio ou fim.

J no passo 5, devemos validar o mapa e suas informaes. Neste ponto, deve-se revisar
as conexes e os tipos e at mesmo a importncia e veracidade dos conceitos. Pode-se
inclusive colocar um grau de certeza nas informaes e relaes.

Por fim, o passo 6 refere-se descoberta e anlise. O objetivo identificar hipteses no


mapa, identificar conhecimento novo e tambm identificar o que est faltando. Aqui
tambm possvel incluir novas relaes e mesmo verificar a falta de conexes (e
incluir se for necessrio). Deve-se interpretar o conjunto de informaes e tirar as
primeiras concluses. Tambm as contradies devem ser resolvidas aqui (podendo-se
eliminar informaes no verificadas). A Figura 52 mostra o surgimento de um novo
conceito ("novo servio"), como uma nova hiptese e um conceito ("retrao de
mercado") que foi eliminado pois se verificou no ser verdade.

O mapa como um quebra-cabea (puzzle). Em alguns casos, pegamos uma unidade de


informao separada e procuramos encaix-la no mapa. Em outros momentos,
verificamos a falta de alguma pea (conceito ou conexo) e vamos em busca de novas
informaes.

138
Figura 52: Novas hipteses e reviso do mapa - metodologia associativa

O mapa serve tambm para raciocinarmos sobre as informaes. Podemos at mesmo


pensar em relaes que ainda no foram descobertas ou no so existentes. Por
exemplo, pensar o que os conceitos A e B tem a ver entre si (qual a relao) e a buscar
informaes

Neste ltimo passo tambm ocorre a anlise de causalidade e influncia: quem


influncia o que, ou causa de.

Hipteses podem ser acrescentadas ao mapa, sendo marcadas desta forma (para no
confundir com informaes j confirmadas).

O tal mapa mental poder ser, num futuro breve, um autmato que sugira anlises a
serem feitas, novos conceitos ou relaes, informaes
informaes a verificar e at mesmo possveis
causas para efeitos.

Ser como o conceito de biblioteca do futuro, proposto por Feigenbaum (1989). Ele
compara as bibliotecas de hoje com as do futuro: as primeiras so como um armazm de
objetos passivos, enquanto que as bibliotecas do futuro sero uma coleo de
documentos ativos que ajudaro s pessoas fornecendo conexes desconhecidas,
fazendo associaes e analogias, sugerindo conceitos novos, descoberta de novos
mtodos e teorias.

139
10 Business Analytics
A evoluo da rea de BI gerou a chamada Business Analytics. O objetivo poder
prever acontecimentos ou predizer valores para variveis. Por exemplo, "neste ritmo de
vendas, alcanaremos a meta no dia ...". A ideia no nova, apenas teve uma nova
roupagem. Os sistemas de apoio deciso (SAD ou DSS, em ingls) j h muitos anos
vm ajudando os tomadores de deciso. O funcionamento simples: a partir de dados
de entrada (parmetros) e utilizando um modelo de deciso, pode-se prever valores
futuros. Os modelos de deciso geralmente so do tipo what-if ("e se eu fizer isto, o que
vai acontecer"), e utilizam tcnicas como projeo, regresso e simulao.

O processo de BI est mais inclinado para explicaes ou explanaes e no tanto para


previso ou predio. H uma diferena entre tentar explicar o que aconteceu e prever o
que vai acontecer. As explicaes, principalmente de causas, podem ser usadas para as
previses. Em geral, as previses so baseadas em dados histricos e na construo de
modelos de previso.

Mas no pode haver confuso. O barmetro permite prever chuva mas no causa do
tempo. O pluvimetro mede ndices de chuva mas tambm no so causas (e no
servem para fazer previses, mas seus registros podem ser utilizados para tal). No o
ato de fumar que causa cncer mas sim as substncias que esto no cigarro.

Business Analytics (BA) complementa BI uma vez que os padres encontrados no


passado podem ser testados no futuro. Por exemplo, uma rede de varejo identificou por
BI que um aumento de 1% no preo final de produtos de um setor sempre reduzia as
vendas totais deste setor em 0,5%. Uma etapa posterior de BA poderia avaliar as
mudanas no lucro final da empresa para um perodo futuro, considerando que as
demais condies no mudem. claro que so utilizados simuladores (software) para
fazer as previses futuras e estes simuladores so baseados em modelos matemticos
(frmulas sobre dados quantitativos).

Previses

Como j dito antes, as previses ajudam as empresas no seu planejamento e no seu dia a
dia. Uma empresa que trabalhe com estoques que consiga prever quanto vai vender nos
prximos dias, pode produzir ou comprar somente a quantidade que ir vender. Estoque
parado prejuzo porque a empresa precisa pagar infraestrutura para armazenar (local,
pessoas, climatizao, etc.) e se no vender o produto pode deteriorar (perder prazo de
validade, estragar por condies climticas adversas, etc.). Dizem que a Amazon ser
capaz de prever vendas e com isto antecipar sua logstica. Ou seja, se ela predizer que
um determinado cliente vai comprar um certo livro dentro de um ms, ela j vai enviar
este livro para um local prximo ao cliente.

E as previses tambm servem para validar hipteses. Faa uma previso a partir de um
modelo e verifique se os eventos previstos acontecem. Isto permite refinar um modelo
ou descart-lo.
140
Mas o que uma previso boa ? Ela precisa acertar tudo, sempre e nos mnimos
detalhes ? A qualidade de uma previso dada pela preciso. Mas nem sempre os
valores ou eventos acontecem realmente como previstos, pode haver um certo desvio,
que chamamos de margem de erro. A tendncia que os modelos e suas previses
errem mais no incio e com o passar do tempo vo melhorando. Para isto preciso fazer
mais previses e refinar o modelo a partir da avaliao das causas dos erros.

Tambm podemos avaliar os modelos e suas previses pelo seu valor. Talvez a previso
erre, mas a margem de erro pode ser aceitvel e a previso ajude a tomar decises.
Imagine tambm uma indstria de refrigerantes. Deixar produto estocado perda na
certa. Ela precisa produzir quase como just-in-time. Ento talvez uma previso boa no
precise de um valor exato para quanto ela vai vender (quanto as pessoas vo consumir
ou comprar), mas um intervalo de valores j ajude.

A previso tem que ser honesta, como nos aconselha Nate Silver. Ela no deve suscitar
a fama pela sua grandiosidade. Ela precisa ser a melhor previso que poderia ter sido
feita. claro que a previso do clima para uma semana intil. Ela precisa ser boa para
o dia corrente e no interessa se errar para mais dias, pois ela poder ser refeita.

Nate Silver distingue previso de projeo. Uma previso uma declarao definitiva e
especfica sobre quando e como acontecer um evento (por exemplo, um terremoto de
grandes propores atingir tal cidade no dia tal). J uma projeo uma declarao
probabilstica (por exemplo, h 60% de chance de ocorrer um terremoto em tal cidade
nos prximos trinta anos).

Os grandes desafios dos modelos de previso so:


1) construir o modelo e refin-lo;
2) determinar os dados ou parmetros que influenciam as previses;
3) coletar estes dados a tempo de poder predizer e no s explicar os ocorridos.

E como j discutido no incio deste livro, os modelos de comportamento que se aplicam


a um determinado contexto talvez no funcionem em outros contextos ou pocas. Uma
pequena mudana nas condies pode inviabilizar um modelo. As analogias, como
discutido antes, precisam ser adaptadas.

Estas pequenas variaes podem ser rudos, como discutido por Nate Silver, ou podem
ser variaes do ambiente real. A Teoria do Caos (discutida no livro de James Gleick)
diz que uma borboleta batendo asas no Brasil pode influenciar o clima no Japo. Esta
ideia veio de um artigo apresentado em 1972, por Edward Lorenz. Lorenz descobriu que
truncar um dado na terceira casa decimal fazia uma enorme diferena. A concluso
que uma pequena mudana nas condies iniciais (o bater de asas de uma borboleta no
Brasil) pode produzir uma divergncia grande e inesperada nos resultados (um tornado
no Japo). No significa que o comportamento do sistema seja aleatrio, como o termo
caos talvez possa sugerir. Significa apenas que muito difcil prever a atuao de
certos tipos de sistemas, pois seria necessrios coletar todas as variveis que implicam
no resultado e saber seu valor com muita preciso em tempo hbil.

141
As previses mudam com o passar do tempo

Segundo Nate Silver, os sistemas complexos so influenciados pelo:


1. Dinamismo: significa que o comportamento do sistema em um dado momento
influencia seu comportamento no futuro; e pela
2. No linearidade: significa que o comportamento segue padres exponenciais.

A extrapolao tende a causar dificuldades de previso porque valores de alguns


parmetros crescem de forma exponencial. Por exemplo, o crescimento populacional e a
disseminao de doenas precisam ser previstos de forma exponencial e no linear.

Ray Kurzweil fala da teoria do retorno acelerado. No caso, ele usa esta teoria para
discutir previses tecnolgicas. Uma previso no linear. Imagine fazer previses para
10 anos. Entretanto, esta previso foi feita no tempo Zero. Aps algum tempo aps o
marco Zero, digamos 2 ou 3 anos, as condies iniciais j mudaram. Ou seja, a previso
inicial no vale mais, precisaria ser refeita com as novas condies. E como as
informaes surgem de forma exponencial (por isto tambm o Big Data), elas podem
ajudar a melhorar as previses. E isto vai acelerando de forma exponencial.

Raposas X Porcos-espinhos

Nate Silver diz que h 2 tipos de pessoas que fazem previses: as raposas e os porcos-
espinhos.

Porcos-espinhos so personalidades que acreditam em grandes ideias, em princpios


bsicos ou leis que regeriam o mundo (como as leis da fsica) e que sustentam
praticamente todas as interaes que ocorrem na sociedade.

Raposas, por outro lado, so criaturas que vivem de fragmentos, que acreditam numa
infinidade de pequenas ideias que juntas produzem algo maior. Tendem a ser mais
tolerantes em relao incerteza e s opinies discordantes. Se os porcos-espinhos so
caadores e esto sempre em busca de uma grande presa, as raposas so animais
coletores.

Previses grandiosas e ousadas podem levar os porcos-espinhos TV. Mas informaes


em excesso se tornam um mau negcio pois h mais variaes. Porcos-espinhos
constroem histrias que so mais ntidas e mais coerentes do que o mundo real, com
protagonistas e viles, vencedores e perdedores, clmax e desfechos, e, geralmente, um
final feliz para o time pelo qual torcem.

Raposas usam mais dados. Porcos-espinhos usam poucos ndices (reduzir algo
complexo a poucas variveis).

Estatsticas X Percepes humanas

As previses podem no ser projees, mas ainda assim so feitas com dados. Se no
tivermos dados, adivinhao, como tendo uma bola de cristal. Por isto, as estatsticas

142
so muito importantes. No h como fazer previses sem olhar para o passado e
aprender com ele.

Por exemplo, no Brasil, o tcnico de vlei Bernardinho e sua equipe tm conseguido


grandes resultados para o time nacional de vlei usando estatsticas. Eles monitoram
tudo o que feito por cada jogador do time do Brasil e tambm dos adversrios.
Registram todos os tipos de jogadas, se resultaram em fracasso ou sucesso, como estava
a posio dos jogadores, e com isto extraem relatrios de que jogadores esto melhor e
quais esto com pior desempenho. Ento, quando um brasileiro for "sacar", eles
analisam em tempo real as estatsticas e verificam para que adversrio deve ser
direcionado o saque e de que forma (tipo de saque). E isto feito para outras estratgias
alm do saque.

Michael Lewis, no livro Moneyball (que virou filme com Brad Pitt), faz uma grande
discusso sobre esta dicotomia entre usar ou no estatsticas. Ele discorre sobre o caso
real do Oakland Athletics, time de baseball americano, para expor seus argumentos. A
questo toda se desenrola na diferena entre olheiros humanos e sistemas estatsticos
para fazer previses sobre jovens jogadores. Cada time escolhe os jogadores mais
promissores no incio da temporada. A grande maioria dos clubes utiliza, at hoje, os
olheiros (scouts).

Os olheiros muitas vezes erram porque se preocupam mais com aparncias. Ento os
sistemas baseados em estatsticas podem ser melhores pois no so influenciados por
rudos e variveis que no implicam em resultados e conseguem se adaptar melhor a
pequenas variaes nos parmetros. Por outro lado, os olheiros vo melhor em alguns
casos porque usam uma abordagem hbrida, com uma quantidade maior de informaes
do que a oferecida apenas pelas estatsticas. E ainda acumulam informaes com o
passar do tempo (no so sistemas estticos). Um bom olheiro tambm consegue
informaes privilegiadas, que a maioria no pode obter (por exemplo, no baseball,
dados sobre a situao social e familiar do jogador).

tambm o mesmo caso dos investidores das bolsas de valores. Se um investidor


utilizar somente as informaes pblicas, a que todos tm acesso, no ter nenhuma
vantagem. Os investidores precisam encontrar detalhes de informaes que os outros
no possuem.

O Oakland de Billy Beane teve um grande sucesso com estatsticas. Em outros casos
porm, olheiros venceram o sistema Pecota de estatsticas. J os Red Sox uniram
olheiros (scouts) e estatsticas (nerds) e foram campees em 2004. Lewis concluiu que
as estatsticas funcionam melhor para jogadores de divises inferiores do que para os da
primeira liga. Mas nos nveis ainda mais inferiores, elas no funcionam.

Segundo Silver, meteorologistas melhoram em 25% as previses de precipitaes feitas


por computador e em 10% as da temperatura. Neste caso, as informaes visuais so
melhores interpretadas por seres humanos do que pelo computador. por isto que
muitos sistemas na Web utilizam figuras tipo captcha para distinguir usurios humanos
de robs.

143
O uso de intuies para previses

Uma boa ideia ento combinar dados estatsticos com intuio, e no somente usar um
ou outro. Onde a intuio no detalhista, os dados podem nos ajudar a lembrar
detalhes. Onde a estatstica no completa, a observao humana pode completar uma
anlise.

Em geral, as pessoas procuram diminuir a incerteza das decises mas assumem certos
riscos pela racionalidade limitada. Por exemplo, se algum quiser traar uma rota de
fuga em caso de incndio num prdio, talvez no consiga avaliar todas as alternativas
possveis (local de incio do fogo, quantidade de pessoas, etc.). E no momento da
situao de incndio, o ser humano tem que simplificar ao mximo seu processo de
deciso para acelerar as aes. Isto quer dizer que os planos iniciais podem ter sido
esquecidos ou tero que ser simplificados. E assim, as atitudes planejadas mudam pela
racionalidade limitada. E o ser humano ento utiliza intuies para acelerar a deciso.

J falamos antes que a intuio um palpite, mas no uma adivinhao. Ela deve ser
precedida por dados. O ser humano possui uma certa capacidade para tomar decises
rpidas com pouca informao. Isto no significa que devemos tomar decises por
pressa. A intuio no deve ser confundida com caminho mais fcil (preguia). Gunther
recomenda no confiar na primeira impresso, e sugere que coletemos muitos dados.
Kahneman tambm concorda: um grande risco tomar decises usando a rea
preguiosa e irracional do crebro.

Daniel Kahneman (2012), ganhador do Prmio Nobel de Economia em 2002, diz que
temos dois sistemas de tomada de deciso: um rpido e outro devagar. O sistema rpido
utilizado por exemplo para reconhecer rostos. At bebs o usam. E a gente no precisa
raciocinar, automtico, sem esforo. Utiliza associaes e reconhecimento de padres,
sendo difcil de controlar ou modificar. J o sistema devagar usado para, por exemplo
calcular quantas horas tem em 4 dias. Ele serial, controlvel, flexvel, governado por
regras e exige muito esforo.

Ambos os sistemas so importantes. O segundo sistema o que acreditamos ser mais


comum e mais correto. Seria como um processo racional de deciso. Entretanto, nossas
vidas esto cheias de exemplos de decises certas que foram tomadas pelo sistema
rpido.

Por exemplo, grandes negcios so fechados somente aps o encontro presencial entre
as partes. Os homens de negcios dizem que importante "olhar nos olhos". Isto
tambm serve para contrataes para empregos. Koestler sugere que as pessoas devam
ter conhecimentos generalizados, sobre outras reas, alm da sua especializao. Isto
pode ajudar inconscientemente, com dados novos e analogias. Gunther cita Alfred P.
Sloan, ex-executivo da GM: "o ato final da deciso intuitivo". Isto porque uma
escolha entre alternativas. Ningum sabe qual a melhor alternativa ou se uma delas vai
dar certo ou no. Se soubssemos, no seria deciso e sim "bola de cristal".

No h nada que garanta o resultado, seja utilizando dados estatsticos ou intuies. Mas
melhor para uma deciso ter mais dados (sejam confirmados ou no).

144
11 Novos tipos de dados, tcnicas de coleta e anlise
Este captulo aborda questes perifricas ao tema de BI, mas que podem ajudar
cientistas de dados e analistas de BI.

11.1 Coleta explcita X implcita X por inferncia

A coleta de dados explcita acontece quando perguntamos algo a algum (num


entrevista ou questionrio) e a pessoa nos d os dados em forma de resposta. Ou ento
quando algum preenche um formulrio na Web ou nos diz algo, mesmo sem a gente
pedir.

J a coleta implcita aquela que utiliza a observao. No conheo estabelecimento


que faa isto, mas um futuro provvel: quando voc paga em dinheiro num
supermercado, este s registra o que voc comprou e como; no ficam registrados dados
como seu sexo, idade, etc. Mas imagine que o operador do caixa (check-out) possa
observar o cliente e utilizar cdigos para dar entrada no sistema de dados que ele est
vendo (sexo, faixa etria, estilo de se vestir, se est acompanhado ou no).

Num futuro um pouco mais distante isto j poder ser feito atravs da anlise de
imagens gravadas com cmeras. J foi feito um experimento que, pelo contorno da
pessoa diante de um banner, era possvel identificar o sexo e a faixa etria. Paco
Underhill e parceiros fazem consultoria para empresas de varejo analisando
estatisticamente o comportamento de clientes em lojas. As informaes so coletadas
por observao direta no ambiente ou em gravaes de imagens.

Com esta onda de Big Data por a, est todo mundo coletando dados sobre todos. A
operadora de celular sabe por onde a gente anda e quando. Qual o caminho que
costumamos fazer, por onde costumamos andar em cada dia da semana e horrio. E se
instalarmos aplicativos tipo o Waze no nosso celular, a Google (que comprou o Waze)
vai saber at a que velocidade estamos andando. E da inferir se estamos a p ou de
carro, ou num engarrafamento. A algum inventou a tecnologia de RFID, e ela est em
cartes com chips, carros, produtos novos e vai estar em sacolas, carrinhos de
supermercados, etc. Ento no s por celular. Os aplicativos e softwares que usamos
em celulares, tablets, notebooks e etc tambm esto avisando onde estamos, se
estivermos conectados via Wifi, 3G ou 4G.

Este tipo de coleta tambm considerada implcita, apesar de no usar a observao


humana. Neste caso, a observao feita sobre dados eletrnicos, capturados por
dispositivos eletrnicos.

Inferir gerar uma informao a partir de outra. Se voc compra muito produto
congelado no supermercado, a anlise destes dados pode ajudar a inferir que:
a) voc tem um bom freezer em casa;
b) voc no sabe cozinhar ou no gosta;

145
c) voc uma pessoa muita atarefada e no tem tempo nem para cozinhar.

A coleta por inferncia ento quando o sistema gera informaes novas a partir de
outras. O nvel de inferncia subjetivo de cada organizao e certamente aumenta a
incerteza sobre a veracidade da informao. Mas muitas empresas assumem o risco
desta incerteza, porque mais incerto ainda no saber nada sobre o cliente.

Tempos atrs surgiram alguns artigos falando sobre Phenomenal Data Mining. Que
significa tentar inferir eventos ou atributos de entidades a partir de colees de dados.
na prtica e com seriedade fazer aquela brincadeira de analisar os restos no lixo de
algum. A voc saber que tipo de pessoa , pelo que compre e consome (marcas, tipos
de produtos, faixas de preos, etc). Assim, se voc compra Xampu feminino e
desodorante feminino juntos na mesma compra, voc uma mulher. Se comprar Xampu
para carro, esponja para lavar carro e creme para polimento de carro, voc certamente
tem um carro. claro que h margem para erros.

E utilizando a sabedoria das massas, se numa loja de supermercado a venda de gua


mineral foi muito acima do normal, porque faltou gua neste bairro. E se na mesma
cidade, vrias farmcias esto vendendo antigripal, porque h um surto de gripe. E
provavelmente a temperatura tambm esfriou ou a umidade aumentou.

E isto j chegou Internet. O Facebook j consegue inferir nossa orientao sexual e


tendncia poltica s analisando nossas "curtidas" (ler a reportagem "Estudo mostra que
boto Curtir do Facebook revela muito mais do que se imagina sobre o usurio
http://oglobo.globo.com/tecnologia/estudo-mostra-que-botao-curtir-do-facebook-revela-
muito-mais-do-que-se-imagina-sobre-usuario-7812419).
Um exemplo caso aconteceu em algumas sinaleiras de grandes cidades. Uma pessoa
passava pelos carros perguntando ao motorista se queria ganhar um brinde. A grande
maioria das pessoas dizia que sim, mesmo que desconfiadas. Ento o "entrevistador de
sinaleiras" pedia o nome e o telefone do motorista, alegando que depois entraria em
contato.

A princpio, parece que s foi utilizada a coleta explcita (perguntas e respostas). Mas se
pararmos para pensar, a pessoa s se dirigia a certos tipos de carros. Alm disto, anotava
mais que o nome e o telefone. Ela anotava o tipo de carro e outros dados que
conseguisse coletar (adesivos informando que h bebs no carro, sobre estacionamentos
hospitalares, associaes e clubes, etc). Ento este um tipo de coleta implcita, por
observao.

Alm disto, os dados iam para centrais onde eram ento analisados. A partir dos dados
coletados explcita ou implicitamente, algum iria fazer uma inferncia. Por exemplo, a
partir do selo de estacionamento de mdicos num hospital, pode-se inferir a profisso de
mdico; da tem-se o perfil de pessoas com boa renda e alto senso crtico. Se o carro
tinha cadeira de bebs, infere-se que h uma famlia por trs.

146
11.2 Novas tecnologias para coletar e monitorar dados

Novas tecnologias esto surgindo para coletar dados. Chips e antenas de RFID
permitem rastrear produtos e at mesmo pessoas (bem como GPS e celulares). A
anlise de vdeos (imagens) permite capturar movimentos e gestos. Capturas de sons
permitem a posterior anlise e o reconhecimento de fala. J h diversos dispositivos
para identificao de pessoas por biometria (at mesmo tatuagens j servem para isto).

Diversos sensores esto sendo fabricados e utilizados nas mais diversas situaes.
Sensores de movimento alertam para intrusos. Sensores de umidade e luminosidade so
utilizados na agricultura de preciso. Sensores de rotao so comuns em jogos em
aparelhos mveis, mas tambm servem para estabilizar veculos. Computadores de
bordo tambm usam sensores de proximidade para estacionar de forma autnoma um
carro. A medicina no futuro ir utilizar sensores para medir sinais de sade nas pessoas.

O professor Petland faz pesquisas com sensores para coletar expresses faciais e utilizar
isto para melhorar a comunicao. O pesquisador Kevin Warwick implantou sensores
em seu corpo. O futurista Michio Kaku fala que haver em breve diagnstico mdico
por imagens capturadas pelo espelho do banheiro ou pela cmera do celular.

11.3 Web Mining

Tcnicas de Web Mining procuram encontrar padres no comportamento de usurios na


Web. Tais tcnicas estatsticas so aplicadas sobre dados de usurios web e sobre
histricos de suas aes em sites Web. Como as aes de usurios ficam registradas em
arquivos de log, nos servidores Web onde os sites ficam instalados, possvel ter
relatrios estatsticos sobre diferentes tipos de informaes, tais como a origem dos
visitantes (analisando o nmero IP de suas mquinas), qual seu sistema operacional e
navegador, qual a ltima pgina vista antes de chegar ao site, etc.

As tcnicas de Web Mining mais bsicas calculam mdias ou somas de variveis


numricas tais como tempo que usurios passam num site ou lendo uma pgina, nmero
de visitantes por hora, ms ou dia da semana, nmero de hits (aes de um usurio no
site), e com isto geram relatrios de pginas mais acessadas, assuntos mais procurados
ou lidos, e mtricas como a taxa de converso (quantos usurios compraram um produto
em relao quantidade que viu o produto no site).

Uma tcnica mais avanada a que analisa a sequncia de clicks ou pginas vistas por
um usurio numa sesso em um site. Esta sequncia chamada de clickstream, e indica
o caminho percorrido pelo usurio desde que entrou no site at sua sada (ltima pgina
vista). A anlise de clickstreams importante para conhecer a estratgia dos usurios at
seu objetivo, ou para saber se algum estava perdido no site sem saber como chegar ao
objetivo, ou para diferenciar as estratgias de usurios com perfis diferentes. Por
exemplo, pode-se comparar os clickstreams mais comuns entre usurios que compram e
comparar com o padro de usurios que no compra. Talvez o projeto do site no esteja
ajudando estes ltimos a chegarem a seus objetivos. Ou a empresa pode descobrir que o
diferencial est na pgina que apresenta o preo dos produtos.

147
Se o usurio puder ser identificado, seja por login, cookies ou outra forma, possvel
saber quantas revisitas so feitas ao site, inferir o interesse do usurio e tambm
enriquecer tais dados com informaes vindas de outras bases, tais como cadastros em
lojas fsicas.
Hal Varian, economista-chefe do Google, na sede da empresa em Mountain View,
Califrnia diz que eles podem prever o nmero de pedidos iniciais de seguro-
desemprego com mais antecedncia porque, se correrem boatos de que haver
demisses em alguma empresa, as pessoas vo comear a pesquisar onde e como dar
entrada no seguro-desemprego e termos afins (citado no livro de Nate Silver).

Para mais detalhes sobre esta tecnologia ver o meu livro sobre 31 tipos de sistemas de
informao.

11.4 Text Mining

Estima-se que 80% das informaes de uma companhia esto contidas em documentos
textuais. Os textos podem ser e-mails, postagens em blogs, microblogs e redes sociais,
arquivos eletrnicos (txt, doc, pdf, ppt, documentos digitalizados), comentrios em
pginas web e at mesmo textos resultantes de pesquisas e questes abertas. Este
volume grande de informaes textuais impossibilita a anlise das informaes de
forma manual. Isto no s pela quantidade, mas pela complexidade das informaes
neste formato, o que exige trabalho intelectual para interpretao dos textos. Outro
problema com anlise manual que se perde a noo estatstica do contedo destes
textos.

Text Mining ou Minerao de Textos ou Descoberta de Conhecimento em Textos (KDT


Knowledge Discovery in Texts) uma evoluo das reas de Recuperao de
Informaes (Information Retrieval) e Extrao de Informaes (Information
Extraction). As tcnicas de Text Mining tem por objetivo aplicar tcnicas estatsticas
diretamente sobre os textos. No caso de Data Mining, que aplicado sobre dados
estruturados, as tcnicas estatsticas so aplicadas sobre campos e valores de tabelas ou
planilhas. Entretanto, no caso de textos, no temos campos, valores ou mesmo tabelas.
E precisamos aplicar as tcnicas sobre o contedo dos textos. Pois bem, o contedo dos
textos formados por palavras (unidade de informao). Ento, Text Mininig iniciou-se
desta forma, aplicando tcnicas estatsticas sobre palavras de textos.
Entretanto, a anlise de palavras isoladas traz problemas de interpretao, conhecidos
como o "problema do vocabulrio" (vocabulary problem). O mesmo assunto ou evento
pode ser abordado ou relatado com diferentes palavras (sinnimos, variaes
lingusticas, etc). Alm disto, h palavras polissmicas (com mais de um significado).
Uma das solues utilizar um vocabulrio controlado, como fazem os mdicos atravs
do CID (Classificao Internacional de Doenas), para evitar mal entendidos. Mas
quando se trata de web e textos populares, no h como garantir uniformidade.
Da mesma forma, poderemos ter problemas analisando reclamaes de clientes se
encontramos a expresso "gostei" e no analisarmos as palavras ao seu redor. Pode ser
que exista um "no" antes e isto muda completamente o significado.

148
Ento, a estratgia mais apropriada para Text Mining identificar conceitos (contextos
ou temas ou assuntos) nos textos e aplicar as tcnicas estatsticas sobre os conceitos.
Para identificar os conceitos, deve-se usar uma base ou ontologia de conceitos, na qual
esto definidas as diferentes formas de um conceito aparecer num texto (sinnimos,
expresses, etc).
Por exemplo, a presena de sintomas de alcoolismo em pronturios mdicos pode ser
verificado pela presena de uma das seguintes expresses: lcool, hlito etlico, faz uso
de bebidas, bebe imoderadamente.
Ento o conceito "alcoolismo" ser definido de forma a serem analisadas estas
expresses. Se uma delas aparecer, o texto estar tratando deste conceito.
Uma vez que as palavras formam a unidade bsica de informao dos textos e sobre elas
ser feito o text mining, necessrio algum tratamento prvio antes de aplicar
estatstica. Por exemplo, corretores ortogrficos ajudam a eliminar variaes incorretas
de palavras.
Text Mining utiliza as mesmas tcnicas de Data Mining que podem ser aplicadas a
variveis nominais ou qualitativas, tais como classificao, clustering, associao,
sequncia temporal e anlise de distribuio. Alm disto, h nova tcnicas como anlise
de diferenas e similaridade entre textos e a tcnica de gerao automtica de resumos
de textos.

Para mais detalhes sobre esta tecnologia ver o meu livro sobre 31 tipos de sistemas de
informao.

11.5 Anlise de Sentimentos

As empresas esto preocupadas com sua imagem. importante saber o que esto
falando dela ou de seus produtos e servios. Para obter tal conhecimento, a empresa
pode usar pesquisas de campo com clientes potenciais ou fazer pesquisas tipo "survey"
com uma amostra de seus clientes. Entretanto, nem sempre as pessoas se sentem
confortveis para reclamar ou falar mal.
Para estes casos existe a Internet, zona livre de censura e restries. Mas no estamos
falando de analisar notcias, nem sites especficos para reclamaes como o
Reclameaqui. No primeiro caso, depende-se da parcialidade da fonte e, no segundo
caso, pode ficar em aspectos muitos especficos de alguns poucos clientes (h uma
estatstica que diz que apenas 95% dos clientes insatisfeitos fazem reclamaes
formais).

A ideia vasculhar a Web atrs de oceanos de opinies, procurando saber o que a


grande massa tem por dizer (Wisdom of Crowds - Sabedoria das Massas). Hoje cada
cliente um "prosumidor" (consumidor + produtor), que deseja expressar suas opinies,
dar ideias, ajudar a empresa ou outras pessoas. E para isto utiliza as redes sociais
(Twitter, Facebook, Google+) ou cria blogs e fruns para reunir grupos de pessoas
interessadas na mesma discusso.

O sucesso depende da capacidade de coletar tais dados informais e da velocidade em


analisar seu contedo, para gerar decises sbias em tempo hbil. A rea de Anlise de

149
Sentimentos (Sentiment Analysis) ou Minerao de Opinies (Opinion Mining) nasce
como uma das alternativas. Seu objetivo encontrar opinies e analisar seu contedo.
Na prtica, o que deve ser feito encontrar na Web textos que possam conter opinies
de pessoas e analisar o tipo de sentimento presente nos textos: se positivos ou negativos
(se falam bem ou falam mal).

O processo depende da existncia de uma ontologia de tarefa ou de domnio, que


permita entender como as pessoas escrevem sobre um determinado assunto e como elas
expressam seus sentimentos positivos e negativos. Aps, um processo de inferncia
probabilstico ou determinstico utilizado para identificar o tipo de sentimento.

A ontologia de tarefa ou de domnio um conjunto organizado de palavras e expresses


lingusticas (multipalavras), separadas por tipo de sentimento. Pode-se utilizar um
mtodo determinstico (quando a presena de certas palavras diz com certeza que um
sentimento est presente num texto) ou um mtodo probabilstico. Neste ltimo caso, as
palavras da ontologia devem ter pesos associados, indicando a probabilidade de a
palavra ou expresso indicar um certo tipo de sentimento. A inferncia ento feita com
mtodos probabilsticos (por exemplo, mtodos bayesianos). Assim, o resultado um
grau de certeza de que um sentimento esteja presente no texto sendo analisado.

Esta ontologia de aplicao pode ser incrementada para que a anlise seja feita sobre
sentimentos mais detalhados (e no somente positivos ou negativos). Alguns autores
utilizam o modelo POMS (Profile of Mood States), utilizado por psiclogos, para
identificar o estados de humor. Este modelo utiliza 6 tipos de humor:
1. Tenso-Ansiedade:
tenso, tranquilo, nervoso, impaciente, inquieto e ansioso.
2. Depresso-Melancolia:
o triste, desencorajado, s, abatido (deprimido), desanimado e infeliz
3. Hostilidade-Ira:
irritado, mal humorado, (rabujento), aborrecido, furioso, com mau feitio, e
enervado.
4. Vigor-Actividade:
animado, activo, enrgico, alegre e cheio de boa disposio
5. Fadiga-Inrcia:
esgotado, fatigado, exausto, sem energia, cansado e estourado.
6. Confuso-Desorientao:
confuso, baralhado, desnorteado, inseguro, competente e eficaz.

Tal modelo j foi utilizado para comprovar a correlao entre postagens do twitter e
acontecimentos do mundo real. Por exemplo, pode-se analisar o sentimento
predominante nas postagens antes, durante ou depois de um evento, sejam as eleies
presidenciais ou o Dia de Ao de Graas. Tambm possvel saber o ritmo das
postagens para cada tipo de humor, analisando-se subidas e descidas num grfico que
represente o total de postagens de cada tipo.

Outro modelo que pode ajudar a detalhar sentimentos, o Modelo OCC de Ortony,
Clore e Colins. Este modelo trabalha com 22 tipos de emoes, agrupando adjetivos que
exprimem tais emoes em textos.

150
Resumindo, tcnicas de anlise de sentimentos so teis para avaliar opinies de
clientes efeitos ou potenciais, mas tambm para refinar ideias (pois a empresa pode
analisar o sentimento das pessoas sobre determinados assuntos antes que produtos e
servios sejam lanados).

151
12 Concluso

Ao fazer BI, o cientista ou analista deve ter em mente que preciso ter um objetivo.
Como j discutimos durante o livro, talvez o objetivo no esteja muito claro no incio
(esta a abordagem proativa), mas ir se delinear durante o processo. Portanto, no h
como terminar um processo de BI sem se ter avaliado se algum objetivo foi alcanado.
Muitas empresas coletam todos os tipos de dados possveis, sem mesmo saber se vo
usar ou no. Outras fazem todo tipo de anlise sem bem saber qual o objetivo por trs
disto. Empresas analisam perfis de clientes, coletam dados pessoais e privativos,
invadem privacidade, mas para qu ?

O Big Data pode ser analisado com tcnicas e ferramentas. Mas ser que precisamos de
tantos dados ? Isto muitas vezes causa a sobrecarga e depois o estresse de quem faz. E
tambm pode causar problemas para clientes. Muitas empresas so coletando dados
demais sobre as pessoas, como invaso de privacidade. O que temos que nos perguntar
se o que estamos fazendo ir trazer mais resultados positivos ou negativos. Ou seja,
vai fazer mais mal ou bem ? E para quem.

Outro cuidado para o cientista de dados querer encontrar padro em tudo. Isto pode
virar um TOC (transtorno obsessivo-compulsivo). Popper (1980, p.17) nos diz: "...
fenmeno psicolgico do pensamento dogmtico ou, de modo geral, do comportamento
dogmtico: esperamos encontrar regularidades em toda parte e tentamos descobri-las
mesmo onde elas no existem; os eventos que resistem a essas tentativas so
considerados como 'rudos de fundo'; somos fis a nossas expectativas mesmo quando
elas so inadequadas - e deveramos reconhecer a derrota. O mundo catico por
natureza. Em alguns casos a gente v padres, mas na maioria parece uma baguna
mesmo. E da ? O importante conseguir viver neste contexto. Foi isto que causou a
evoluo dos seres vivos, justamente a capacidade de adaptar-se a ambientes diferentes.
Isto implicou no desenvolvimento de habilidades melhores e a consequente
sobrevivncia por mais tempo.

Um conselho final aproveitar o que os nmeros podem nos dar mas no acreditar que
os nmeros sempre sero melhores que nossas intuies e sentimentos.

O Futuro do BI

O futuro do BI provavelmente est no 4o paradigma: o uso intensivo de dados (data-


intensive science) com novos mtodos cientficos, com sistemas de software mais
poderosos, com mais semntica a partir dos dados, mas acima de tudo com o intelecto e
a sensibilidade de humanos.

Sistemas inteligentes podero sugerir novas conexes, descobrir novas regras, padres,
hipteses e conhecimentos. Mas somente humanos podero incorporar tcnicas de
criatividade e conhecimentos para a integrao de diferentes disciplinas, para anlise de
novos cenrios, para soluo de problemas, para identificao de causas.

152
Bibliografia

AGRAWAL, Rakesh; IMIELINSKI, Tomasz. Database mining: a performance


perspective. IEEE Transactions on Knowledge and Data Engineering, v.5, n.6,
Dezembro de 1993.
ANDEL, Pek Van. Anatomy of the Unsought Finding. Serendipity: Origin, History,
Domains, Traditions, Appearances, Patterns and Programmability. The British Journal
for the Philosophy of Science, v.45, n.2, Junho, 1994, p.631-648.

ANSOFF, H. Igor. Strategic issue management. Strategic Management Journal, v.1, n.2,
April/June 1980, p.131148.

ASUR, Sitaram; HUBERMAN, Bernardo A. Predicting the Future with Social Media.
Proceedings WI-IAT '10 IEEE/WIC/ACM International Conference on Web
Intelligence and Intelligent Agent Technology - v.1, 2010, p. 492-499.

BARABASI, Albert-Laszlo; BONABEAU, Eric. Scale-free networks. Scientific


American, n.288, Maio de 2003, p.50-59.

BARABASI, Albert-Laszlo. Linked: How Everything Is Connected to Everything Else


and What It Means for Business, Science, and Everyday Life. Plume, 2003.

BARAN, Paul. On Distributed Communications Networks. the Rand Corporation,


Setembro de 1962.

BERTIN, Jacques. Semiology of Graphics: Diagrams, Networks, Maps. University of


Wisconsin Press, 1983.

BLANCO, S.; CARON-FASAN, M. L.; ,LESCA, H. Developing capabilities to create


collective intelligence within organizations. Journal of Competitive Intelligence and
Management, v.1, n.1, Spring 2003.

BOLLEN, Johan; MAO, Huina; ZENG, Xiao-Jun. Twitter mood predicts the stock
market. Journal of Computational Science, 2(1), March 2011, 1-8.

CARON-FASAN, Marie Laurence; JANISSEK-MUNIZ, Raquel. Anlise de


informaes de inteligncia estratgica antecipativa coletiva: proposio de um mtodo,
caso aplicado e experincias. Revista de Administrao, So Paulo, v.39, n.3, jul/ago/set
2004, p.205-219.

CHOI, H.; VARIAN, H. Predicting the Present with Google Trends. Economic Record,
special issue selected Papers from the 40th Australian Conference of Economists, v. 88,
n.1, p.29, June 2012.

CHOUDHURY, Vivek; SAMPLER, Jeffrey L. Information specificity and


environmental scanning: an economic perspective. MIS Quarterly, Maro de 1997.

153
CLARKE, Ronald V.; ECK, John E. Crime analysis for problem solvers in 60 small
steps. Center for Problem-Oriented Policing, U.S. Department of Justice.

DAWKINS, Richard. O Gene Egosta. Companhia das Letras, 2007.

DESCARTES, Ren. O discurso do mtodo. So Paulo: Martins Fontes, 2001. (original:


Discours de la methode, 1637)

DOMINGOS, Carlos. Oportunidades disfaradas: histrias reais de empresas que


transformaram problemas em grandes oportunidades. Sextante, 2009.

DOYLE, Arthur Conan. Um Estudo em Vermelho. Traduo de Hamlcar de Garcia.


Publicado em "As Aventuras de Sherlock Holmes, Volume I". Crculo do Livro.
(Original: A Study in Scarlet. Almanaque Beeton's Christmas Annual, novembro,
1887).

DUGAS, A. F. et al. Influenza Forecasting with Google Flu Trends. Online Journal of
Public Health Informatics, v.8, n.2, Fevereiro de 2013.

DUHIGG, Charles. O Poder do Hbito - Por que fazemos o que fazemos na vida e nos
Negcios. Objetiva, 2012.

EKMAN, Paul; ROSENBERG, Erika L. (ed.) What the Face reveals - basic and applied
studies of spontaneous expression using the Facial Action Coding System (FACS). New
York: Oxford University Press Inc., 1997.

EKMAN, P.; FRIESEN, W.V.; HAGER, J.C. FACS - the Facial Action Coding System.
2a. ed. Salt Lake City: Research Nexus eBook. London: Weidenfeld & Nicolson, 2002.

FEIGENBAUM, E. A.. Toward the Library of the Future. Long Range Planning, v. 22,
n. 1, 1989, p.118-123.

FORMANSKI, Jos Gilberto; FORMANSKI, Filipi Naspolini; RODRIGUEZ y


RODRIGUEZ, Martius Vicente. A contribuio da anlise de redes sociais na
identificao dos conhecimentos crticos em uma organizao: um estudo de caso.
Anais do KM Brasil 2012. So Paulo: SBGC, agosto 2012.

FORSTER, Malcolm R. Probabilistic Causality and the Foundations of Modern


Science. Ph.D. Thesis, University of Western Ontario. 1984.

GENG, Liqiang; HAMILTON, Howard J. Interestingness Measures for Data Mining: A


Survey. ACM Computing Surveys, v.38, n.3, 2006.

GHANI, Rayid; SIMMONS, Hillery. Predicting the End-Price of Online Auctions.


International Workshop on Data Mining and Adaptive Modelling Methods for
Economics and Management held in conjunction with the 15th European Conference on
Machine Learning (ECML/PKDDD), Pisa, Itlia, 2004.

154
GIGERENZER, Gerd; GAISSMAIER, Wolfgang. Heuristic Decision Making. Annual
Review of Psychology, v.62, 2011, p.451482.

GLADWELL, Malcolm. Blink - a deciso num piscar de olhos. Rocco, 2005.

GLADWELL, Malcolm. Outliers - the story of success. Back Bay Books, 2011.

GLADWELL, Malcolm. O ponto da virada - como pequenas coisas podem fazer uma
grande diferena (original: the tipping point). Rio de Janeiro: Sextante, 2013.

GLEICK, James. Caos - a criao de uma nova cincia. Rio de Janeiro: Campus, 1989.

GUNTHER, Max. O Fator Sorte. Rio de Janeiro: Best Business, 2013 (original: The
luck factor, 1977).

HARVEY A. Carr. An introduction to space perception. 1935.

HEY, Tony; TANSLEY, Stewart; TOLLE, Kristin. The Fourth Paradigm: data-
intensive scientific discovery. Redmond: Microsoft Research, 2009.

INGWERSEN, Peter. Congnitive perspectives of information retrieval interaction:


elements of a cognitive IR theory. Journal of Documentation, v.52, n.1, Maro de 1996.

ISHIKAWA, K. Introduction to quality control. Productivity Press, 1990.

JARDIM, Robson Bresolin; LOH, S (orientador). Portal colaborativo para construo


de mapas sobre evoluo de doenas epidemiolgicas. 2011. (Trabalho de Concluso do
Curso de Sistemas de Informao, Universidade Luterana do Brasil)

JOHNSON, Steven Berlin. The Ghost Map: The Story of London's Most Terrifying
Epidemic and How It Changed Science, Cities, and the Modern World. Riverhead
Hardcover, 2006.

KAHNEMAN, Daniel. Rpido e Devagar - Duas Formas de Pensar. Objetiva, 2012.


GORR, Wilpen L. et al. Forecasting Crime. 1999.

KOESTLER, Arthur. The Act of Creation - a study of the conscious and unconscious
processes in humor, scientific discovery and art. New York: Arkana (The Penguin
Group), 1964.

KORTH, Henry; SILBERSCHATZ, Abraham. Database Research Faces the


Information Explosion. Communications of the ACM, v. 40, n.2, Fevereiro de 1997,
p.139-142.

KRING, Ann M.; SLOAN, Denise M. The Facial Expression Coding System (FACES):
development, validation, and utility. Psychological Assessment, v.19, n.2, Junho de
2007, p.210-24.

155
KUHLTHAU, Carol C. Inside the search process: information seeking from the user's
perspective. Journal of the American Society for Information Science, v.42, n.5, June
1991.

KUHN, Thomas S. A Estrutura das Revolues Cientficas. 10.ed. So Paulo:


Perspectiva, 2011 (original: 1962).

LENAT, Douglas B. The nature of Heuristics. Artificial Intelligence, v.19, n.2, Outubro
de 1982, p.189-249.

LESCA, Humbert. Veille stratgique: la mthode L.E.SCAnning. Colombelles: Editions


SEM, 2003.

LEWIS, Michael. Moneyball: The Art of Winning an Unfair Game. W. W. Norton &
Company, 2004.

LEVITT, Steve. D.; DUBNER, S. J. Freakonomics: A Rogue Economist Explores the


Hidden Side of Everything. William Morrow Paperbacks, 2009.

LOH, Stanley. 31 tipos de sistemas de informao - 31 maneiras de a tecnologia da


informao ajudar as organizaes. Porto Alegre, 2014.

LOSEE, John. A Historical Introduction to the Philosophy of Science. 4a.ed. New York:
Oxford University Press, 2001. (original 1972)

MALTZ, Michael D.; KLOSAK-MULLANY, Jacqueline. Visualizing Lives: New


Pathways for Analyzing Life Course Trajectories. Journal of Quantitative Criminology,
v.16, n.2, June 2000, p.255-281.

MAATHUIS, Marloes H.; COLOMBO, Diego; KALISCH, Markus; BHLMANN,


Peter. Predicting causal effects in large-scale systems from observational data. Nature
Methods 7, April 2010, p.247248.

MILLER, George A. The Magical Number Seven, Plus or Minus Two: Some Limits on
OurCapacity for Processing Information. The Psychological Review, v. 63, 1956, p. 81-
97.

MISHNE, Gilad. Predicting movie sales from blogger sentiment. In AAAI Spring
Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW)
2006.

MORAES, Maurcio. Big Brother Obama. Revista Info, Editora Abril, n.324, dezembro
de 2012.

MORIN, Edgar. Os Sete Saberes Necessrios Educao do Futuro. 2.ed. So Paulo:


Cortez; Braslia: UNESCO, 2000.

MOSCAROLA, Jean; BOLDEN, Richard. From the data mine to the knowledge mill:
applying the principles of lexical analysis to the data mining and knowledge discovery
process. Note de Recherche n 98-15, Universit de Savoie. Setembro de 1998.

156
OARD, Douglas W.; MARCHIONINI, Gary. A conceptual framework for text filtering.
Technical Report, University of Maryland. Maio de 1996.

ORTONY, A.; CLORE, G. L.; COLINS, A. The Cognitive Structure of Emotions.


Cambridge University Press. 1988.

PARSAYE, Kamran et alli. Intelligent databases: object-oriented, deductive hypermedia


technologies. New York: John Wiley & Sons, 1989.

POPPER, Karl. The logic of scientific discovery. Londres: Hutchinson & Co., 1959.

POPPER, Karl. Conjecturas e Refutaes. Braslia: Editora da UnB. 1980.

PORTO, Celmo Seleno. Semiologia Mdica. 5.ed. Guanabara Koogan, 2005.

RADINSKY, Kira; HORVITZ, Eric. Mining the web to predict future events.
Proceedings WSDM '13 Proceedings of the sixth ACM international conference on Web
search and data mining, 2013, p. 255-264.

SARGUT, Gke; McGRATH, Rita Gunther. Learning to Live with Complexity.


Harvard Business Review, special issue on Complexity, September 2011.

SENGE, P. The Fifth Discipline: The art & practice of the learning organization. New
York: Doubleday, 1990.

SENGE, P. et al. A Quinta Disciplina: Caderno de Campo. Rio de Janeiro: Qualitymark,


1995.

SILVA, Ricardo. Causality. Encyclopedia of Machine Learning, Springer, 2010, p.159-


166.

SILVER, Nate. O sinal e o rudo: por que tantas previses falham e outras no. Rio de
Janeiro: Intrnseca, 2013.

SIMON, Herbert A. "Theories of Bounded Rationality". In McGUIRE, C.B. &


RADNER, R. (ed.). Decision and Organization. Amsterdam: North-Holland Publishing
Company, 1972.

SMITH, John Miles; SMITH, Diane C. P. Database abstractions: aggregation and


generalization. ACM Trans. on Database systems, v.2, n.2, junho, 1977, p.105-133.

SPINK, Amanda; WOLFRAM, Dietmar; JANSEN, Major B. J.; SARACEVIC, Tefko.


Searching the web: The public and their queries. Journal of the American Society for
Information Science and Technology, v. 52, n.3, 2001, p. 226234.

STEWART, Thomas R. Uncertainty, judgment and error in prediction. In: SAREWITZ,


D.; PIELKE, R. A.; BYERLEY, R. Prediction: Science, Decision Making and the
Future of Nature. Washington: Island Press, 2000, p. 41-57.

157
SWANSON, Don R.; SMALHEISER, N. R. An interactive system for finding
complementary literatures: a stimulus to scientific discovery. Artificial Intelligence,
Amsterdam, v.91, n.2, p.183-203, Apr. 1997.

TOLE, A. A. Big Data Challenges. Database Systems Journal, v. IV, n. 3, 2013, p.31-
40.

TSAMARDINOS, Ioannis; TRIANTAFILLOU, Sofia. Introduction to causal discovery:


A Bayesian Networks approach. ECML-PKDD, Causal Discovery Tutorial, 2011.

TVERSKY, Amos; KAHNEMAN, Daniel. Belief in the law of small numbers.


Psychological Bulletin, v.76, n.2, 1971, p.105-110.

TVERSKY, Amos; KAHNEMAN, Daniel. Judgment under uncertainty: heuristics and


biases. Science, n.185, 1974, p.1124-1131.

TVERSKY, Amos; KAHNEMAN, Daniel. Extensional versus intuitive reasoning: the


conjunction fallacy in probabilistic reasoning. Psychological Review, n.90, 1983, p.293-
315.

UCHIDA, Naoshige; KEPECS, Adam; MAINEN, Zachary F. Seeing at a glance,


smelling in a whiff: rapid forms of perceptual decision making. Neuroscience, v.7,
Junho de 2006, p.485-491.

UNDERHILL, Paco. Why we buy: the science of shopping. Simon & Schuster, 1999.

WILSON, Timothy D. Strangers to Ourselves: Discovering the Adaptive Unconscious.


Belknap Press of Harvard University Press, Maio de 2004.

WINSTON, Robert. Instinto humano. So Paulo: Globo, 2006.

WOLF, Gary. The Data-Driven Life - What happens when technology can analyze
every quotidian thing that happened to you today ? The New York Times Magazine
Maio de 2010.

158

Das könnte Ihnen auch gefallen