Beruflich Dokumente
Kultur Dokumente
ECOSSISTEMA HADOOP 1
Ecossistema Hadoop
O Hadoop surgiu como uma solução adequada para Big Data por vários motivos:
– É um projeto open source, fato que permite a sua modificação para fins de
customização e o torna suscetível a melhorias constantes graças à sua rede de
colaboração.
– Proporciona economia, já que não exige o pagamento de licenças e suporta hardware
convencional, permitindo a criação de projetos com máquinas consideravelmente mais
baratas.
– O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação
de dados.
– O Hadoop é escalável: havendo necessidade de processamento para suportar maior
quantidade de dados, é possível acrescentar computadores sem necessidade de
realizar reconfigurações complexas no sistema.
Nem todo usuário de Hadoop demanda uma escala massiva de dados ao nível do
Facebook ou Yahoo. No entanto, empresas com razoável volume de informações não
ECOSSISTEMA HADOOP 2
estruturadas, como bancos, varejo, empresas aéreas e outras vão encontrar no
Hadoop uma boa alternativa para o tratamento analítico dos seus dados.
Via de regra, escalar (torná-lo maior) um bancos de dados NoSQL é mais fácil e menos
custoso. Isso é possível porque, além de contar com propriedades mais flexíveis,
bancos deste tipo já são otimizados para trabalhar com processamento paralelo,
distribuição global (vários data centers), aumento imediato de sua capacidade e
outros.
ECOSSISTEMA HADOOP 3
Daí a importância de se trazer o Big Data para o dia a dia da comunicação, deixar os
dados nos dizerem a que vieram.
O curioso é que poucos conseguem realmente imaginar como podemos trazer a ciência
dos dados para um universo no qual trabalhamos com o intangível, com percepções,
reações e julgamentos, tal como é (ou parece ser) o mundo da comunicação e das
relações públicas. Esse desafio ainda é enorme, mas é cada vez mais possível
desvendarmos padrões e tendências, estatisticamente mensuráveis, que se escondem
em publicações, artigos, posts, perfis e menções, ou ainda em cliques, buscas e
interações ocultas nas redes. Matila Ghyka, filósofo e diplomata romeno, matemático
dado para a poesia, costumava dizer que “quem quer estudar ou exercer a Magia deve
cultivar a Matemática”.
ECOSSISTEMA HADOOP 4
desempenho dessa ação, já que plataformas são criadas especificamente para o
processo, podendo assim visualizar a performance da estratégia e medir seus
resultados.
A visualização dos dados em Big Data é uma das ferramentas que mais crescem no
Big Data e existe uma razão bem simples para isso: as máquinas precisam dos
humanos e quanto mais bem representados os dados estão visualmente, maior será a
compreensão humana. Em suma, dados dispostos de maneira visual permitem que os
indivíduos enxerguem padrões e tenham insights mais rapidamente.
A visualização de dados é mais que uma simples linha do tempo que conta uma
história. É preciso “cavar” mais para obter resultados significativos, não se trata apenas
imprimir um gráfico e deixar à vista até que alguém perceba algo. Entretanto, a
ECOSSISTEMA HADOOP 5
visualização de dados pode revelar mais facilmente insights que passariam
despercebidos pelos analistas.
A imagem é capaz de traduzir para o cérebro, de forma didática, os inputs que ele
precisa extrair e processar as informações, agilizando o processo de tomada de
decisão. Além do tempo economizado, a visualização de Big Data por imagens atribui
mais assertividade às decisões dos gestores.
As técnicas de visualização vêm evoluindo muito e existe uma relação circular e intensa
dessas técnicas com o crescimento das demandas de análises de dados. Com maiores
ECOSSISTEMA HADOOP 6
volumes, precisamos de novas formas de visualização de dados, que nos mostrem
padrões antes irreconhecíveis, e, por sua vez, essas novas técnicas de visualização
incentivam o uso de mais análises, É um círculo virtuoso.
Em empresas cada vez mais movidas por dados, usar os dados para guiar decisões é
algo obrigatório e a visualização de dados pode ser usada para revelar a “verdade” de
alguns pontos para então criar uma história.
Entretanto, analisar base de dados não estruturadas como textos sempre representou
um óbice pela grande dificuldade de sistematizar o significado do que está escrito.
Signos gramaticais como acentos e abreviações promovem significados adversos e
inserem uma contextualização diferente ao que foi dito (PINHEIRO, 2009). O segredo
para que uma empresa ultrapasse a concorrência e conquiste mais consumidores,
muitas vezes, se esconde em sua própria base de dados.
A partir deste cenário, o desafio atual é fazer com que estes dados de várias
procedências se integrem, dialoguem e formem uma única unidade informativa. As
empresas que se prepararem adequadamente para este movimento sairão na frente,
ECOSSISTEMA HADOOP 7
pois terão a possibilidade de mapear comportamentos, entender mais o seu público e
o mercado e enxergarem novas oportunidades.
O volume é apenas o começo dos desafios dessa nova tecnologia, se temos um volume
enorme de dados, também obtemos a variedade dos mesmos. Já pensou na
quantidade de informações dispersas em redes sociais? Facebook, Twitter entre outros
possuem um vasto e distinto campo de informações sendo ofertadas em público a todo
segundo. Podemos observar a variedade de dados em e-mails, redes sociais,
fotografias, áudios, telefones e cartões de crédito (McAFFE et al., 2012). Seja qual for
a discussão, podemos obter infinitos pontos de vista sobre a mesma. Empresas que
conseguem captar a variedade, seja de fontes ou de critérios, agregam mais valor ao
negócio (Gartner). O Big Data escalona a variedade de informações das seguintes
formas (JEWELL, DAVE et al):
Um em cada três líderes não confiam nos dados que recebem (IBM). Para colher bons
frutos do processo do Big Data é necessário obter dados verídicos, de acordo com a
realidade. O conceito de velocidade é bem alinhado ao conceito de veracidade pela
necessidade constante de análise em tempo real, isso significa dados que condizem
com a realidade daquele momento, pois dados passados não podem ser considerados
dados verídicos para o momento em que é analisado. A relevância dos dados coletados
é tão importante quanto conceito de velocidade. A verificação dos dados coletados
para adequação e relevância ao propósito da análise é um ponto chave para se obter
dados que agreguem valor ao processo (HURWITZ, NUGENT, HALPER & KAUFMAN,
2016).
ECOSSISTEMA HADOOP 8
Quanto maior a riqueza de dados, mais importante é saber realizar as perguntas certas
no início de todo processo de análise (BROWN, ERIC, 2014). É necessário estar focado
para a orientação do negócio, o valor que a coleta e análise dos dados trarão para o
negócio. Não é viável realizar todo o processo de Big Data se não se tem
questionamentos que ajudem o negócio de modo realístico. Da mesma forma é
importante estar atento aos custos envolvidos nessa operação, o valor agregado de
todo esse trabalho desenvolvido, coleta, armazenamento e análise de todos esses
da/dos tem de compensar os custos financeiros envolvidos (TAURION, 2013).
ECOSSISTEMA HADOOP 9
Uma das técnicas que nos ajudam a identificar insigths, aumentar a fidelidade do
público, reduzir a rotatividade de clientes, gerar mais rentabilidade e,
consequentemente, ficar à frente da concorrência é a Mineração de Dados.
Este tipo de análise dá aos gestores embasamento de altíssimo valor para tomada de
decisões estratégicas, permitindo detectar de forma precoce a ocorrência de
tendências do mercado e desta forma antecipando suas ações para responder a novos
cenários.
ECOSSISTEMA HADOOP 10
Artificial, com um pouco de gestão de base de dados na mistura. Geralmente, o
objetivo da mineração de dados é dividir ou prever.
Quanto mais conhecimento dos dados os gestores tiverem, mais aspectos dos negócios
poderão otimizar — se você agir a tempo. Assim como o tempo pode desatualizar os
dados, os tomadores de decisão precisam de informações a tempo de usá-las para
ganhar vantagens competitivas. A empresa que identificar e agir primeiro com
conhecimento será a empresa que sairá vencedora. Isso pode melhorar o
relacionamento com o cliente, aprofundar análises competitivas e de mercado e
aumentar a rentabilidade. Informações podem apoiar o planejamento e a execução
dos negócios. Empresas que aproveitam ao máximo as informações podem usá-las
não apenas como um fator de melhoria, mas como seu modelo de negócios. Suas
análises e projeções de comportamento do cliente são a base de seus modelos de
negócios e as têm impulsionado ao sucesso.
ECOSSISTEMA HADOOP 11
busca de padrões de grandes volumes de dados até então desconhecidos. Assim, é
necessário compreender também que, como boa parte desses dados estão dispostos
de uma forma não estruturada, uma leitura a “olho nu” torna o processo de análise
oneroso e muitas vezes inviável face a premência na análise dessas informações.
Análises avançadas não exigem Big Data, entretanto, ser capaz de aplicá-las com Big
Data fornece resultados importantes.
Como a maioria dos projetos de Big Data falha por falta de clareza e pela incapacidade
de demonstrar a funcionalidade da iniciativa, você mesmo deve se responsabilizar por
isso para trazer foco e comprovação ao seu projeto. Seguem três dicas úteis para
garantir que o seu projeto já comece dando certo e continue em operação.
ECOSSISTEMA HADOOP 12
Defina objetivos claros e administre as expectativas
Se a sua organização já precisa de dados para determinados processos de negócios
(como detecção de fraudes ou análise de mercado), pense em como Big Data pode
melhorar ou valorizar esses processos. Sem um foco claro e um valor perceptível aos
usuários de negócios, o projeto estará condenado ao fracasso.
Valor demonstrável
O projeto certo é aquele em que o valor é compartilhado de maneira igual entre a TI
e a unidade de negócio que você está tentando ajudar, isso significa proporcionar um
valor claro para um departamento, uma unidade de negócio ou um grupo, de forma
que eles possam ver.
Patrocínio
Os projetos de Big Data precisam de defensores e patrocinadores em altos cargos,
que estejam dispostos a defender o trabalho que você está fazendo.
ECOSSISTEMA HADOOP 13
Um efeito de jogo de boliche
A importância estratégica do seu projeto tático é vital. Além de provar, sem sombra
de dúvida, que Big Data pode ajudar a unidade de negócio que você está apoiando, é
bom se certificar de que o valor possa ser comunicado facilmente para a empresa em
geral.
Habilidades transferíveis
É preciso se certificar de que você pode aprender as habilidades, as capacidades e as
lições certas do seu primeiro projeto. Mais enfaticamente, é preciso garantir que tudo
isso seja documentado para que você possa transferir conhecimento para o próximo
projeto. Lembre-se: se a sua meta é o sucesso, então você já está se preparando para
futuros projetos.
ECOSSISTEMA HADOOP 14
Compartilhamento. Plataformas para compartilhamento de dados serão cada
vez mais comum. Vemos como desafio o desenvolvimento de linguagens e
interface mais acessíveis.
Analítica. Nesse ponto da cadeia está o maior gargalo pela escassez dos
chamados cientistas de dados. Tecnicamente, desenvolver modelos analíticos é
um desafio porque cada modelo é adequado a um problema em um
determinado contexto e porque precisa ser dinâmico para manter-se atualizado.
Cada modelo analítico pode ser considerado uma peça única e sua efetividade
tem que ser colocada à prova continuamente.
ECOSSISTEMA HADOOP 15
como novo paradigma de conhecimento. O desconhecimento faz com que Big
Data seja, na maioria das vezes, exageradamente enaltecido ou injustamente
desqualificado. Acreditamos que as duas posturas extremistas cometem o
mesmo erro na origem: não colocam o ser humano no comando. A primeira
será a responsável pela escalada vertiginosa ao pico das expectativas porque
cria a expectativa de que a tecnologia sozinha trará todas as soluções para
nossos problemas. A segunda postura comandará a queda livre em direção ao
poço da desilusão atribuindo à tecnologia todos os impactos negativos de sua
adoção. Colocar o ser humano no comando de qualquer projeto em Big Data é
reconhecer que nenhuma tecnologia pode prescindir da inteligência que deve
agir não apenas para alcançar os desejados fins, mas também para escolher
com responsabilidade os adequados meios.
Design de redes. A falta de cientistas de dados e de profissionais para tomar
decisões a partir de modelos preditivos tem sido destacada como gargalo por
todas as empresas de consultoria no assunto. No entanto, identificamos outro
desafio na formação profissional para trabalhar com Big Data: a habilidade de
ver e desenhar redes complexas. Big Data é um código digital de relações que
são os links de uma rede. Decifrar e utilizar as informações contidas nesses
códigos passa necessariamente por entender as redes complexas em que estão
os problemas que desejamos resolver. Acreditamos que design de redes
complexas será uma competência necessária e valorizada para se trabalhar com
Big Data.
Privacidade. A polêmica questão da privacidade na utilização de dados digitais
precisará evoluir para o campo da ética para ser resolvida. Antes, porém será
preciso ficar clara a diferença entre dados e informação. Dado é a representação
física de um evento no tempo e espaço que não agrega fundamento para quem
o recebe, não podendo ser possível entender o que ele representa ou para que
ele exista, porém, no momento que existir uma agregação com outro dado ele
passa a ser uma informação. O pressuposto do Big Data é que dados em grande
quantidade de um determinado domínio quando transportado para outro, gera
ECOSSISTEMA HADOOP 16
informações (dados agregados) e insights relevantes para a compreensão de
fenômenos que não podem ser explicados em uma relação causa-efeito linear.
ECOSSISTEMA HADOOP 17
a principal força motora do Big Data pela diversidade de dados de dinâmica
humana que ela propicia, essa ameaça terá forte impacto na expansão da
base de dados. Por outro lado, a base de dados existente e qualidade do
setor de TI são forças que podem ser usadas para reverter esse quadro. O
desafio é o desenvolvimento de projetos em análise de dados de grande
visibilidade e relevância para justificar o investimento na melhoria da rede e
a queda no custo, melhorando, assim, a penetração da rede em regiões e
segmentos da população em que o acesso ainda é restrito.
Fraquezas-oportunidades. Apesar de apresentar muitas ameaças, o Big
Data, o Brasil oferece também condições para o desenvolvimento de boas
vantagens competitivas. A principal delas diz respeito à rápida adesão da
população a novas tecnologias e processos fortemente dependentes dela.
Esse fator, somado à forte adesão às redes sociais e à participação online e
ao conceito de que inclusão digital é importante para a inclusão social, geram
as condições ideais para a geração espontânea de dados de alta qualidade
para análise preditiva de comportamento humano e dinâmica social. O
desafio aqui é o desenvolvimento de plataformas para compartilhamento
desses dados.
Forças-oportunidade. O quadrante onde forças e oportunidades se
encontram só são desafios até o momento do seu reconhecimento. A partir
daí torna-se natural o caminho de associar esses fatores positivos para
ganhar vantagem competitiva em algumas áreas específicas do Big Data.
ECOSSISTEMA HADOOP 18
Alguns pontos importantes na gestão de projetos de Big Data precisam ser definidos.
Big Data impacta processos de negócio, fontes de dados (começa-se a utilizar cada
vez mais fontes externas à organização), arquitetura de dados e sistemas,
infraestrutura e suporte tecnológico (utilização de bancos de dados NoSQL), estrutura
organizacional e capacitação. Pode afetar de forma drástica a corporação, inclusive
mudando o mindset da tomada de decisões baseada em intuição para fatos.
Os dados utilizados em projeto de Big Data são geralmente dados não estruturados,
esses são de difícil acesso e recuperação e muitas vezes não dispõem de componentes
necessários para identificação de tipo de processamento e interpretação, tornando o
ECOSSISTEMA HADOOP 19
seu uso um desafio principalmente em aplicativos empresariais. Esse tipo de dados
requer dispositivos de armazenamento e processamento (a operacionalização) que
suportem seu formato e garantam melhor eficiência em suas análises.
1. Garantir o apoio e a liderança dos executivos em iniciativas de Big Data. Nada abaixo
do alto escalão será suficiente para promover uma mudança duradoura.
4. Trabalhar com foco em uma cultura dinâmica, voltada a dados, que envolva tanto
os executivos como os funcionários nos estágios iniciais do desenvolvimento, usando
e aprimorando as soluções de Big Data.
ECOSSISTEMA HADOOP 20
O que é o APACHE SPARK
O Spark permite que aplicações em clusters Hadoop executem até 100 vezes mais
rápido em memória e até 10 vezes mais rápido em disco, desenvolver rapidamente
aplicações em Java, Scala ou Python. Além disso, vem com um conjunto integrado de
mais de 80 operadores de alto nível e pode ser usado de forma interativa para
consultar dados diretamente do console.
O Spark tem muitas vantagens se comparado com as outras tecnologias de Big Data
e do paradigma MapReduce, como o Hadoop.
ECOSSISTEMA HADOOP 21
Diversas empresas e organizações utilizam Spark em suas aplicações. Entre elas,
podemos destacar: Amazon, Baidu, eBay Inc. (agregação de logs de transações e
análises), Yahoo!, Grupon, NASA JPL ‒ Deep Space Network e Yahoo!
O Spark tem como base ”Resilient Distributed Datasets (RDD)”, que é uma estrutura
abstrata para gerenciamento de dados em memória que fornece uma forma restringida
de memória compartilhada em cluster de computadores. O Spark também fornece uma
interface iterativa de programação e, além de permitir a implementação de jobs
MapReduce em memória, ele foca na possibilidade de implementação de algoritmos
que inerentemente fazem inúmeras iterações sobre dados, tais como: algoritmos
iterativos de aprendizagem de máquina e grafos, incluindo
PageRank, K-means clustering, e regressão logística.
As principais operações paralelas que podem ser aplicadas em RDDs são: reduce,
collect e foreach. A operação reduce combina elementos dos conjuntos de dados
utilizando uma função de associação. Já a operação collect envia todos os elementos
de um conjunto de dados (RDD) para o programa driver. Por fim, a operação foreach
aplica uma determinada função, informada pelo programador, em cada elemento de
um RDD. Diferentemente de outras plataformas, o Spark não suporta a operação de
redução de forma paralela, isto é, os resultados dessa operação são coletados apenas
pelo programa driver.
ECOSSISTEMA HADOOP 22
Aplicações Spark executam como conjuntos de processos independentes em um
cluster, coordenados pelo objeto SparkContext presente no programa principal
(também chamado de programa driver). Para ser executado em um cluster, o
SparkContext pode se conectar a vários gerenciadores (gerenciador próprio ou
Mesos/YARN), que alocam recursos entre os programas. Uma vez conectado, o Spark
adquire executores em nós do cluster, que são processos que realizam cálculos e
armazenam dados da aplicação. Em seguida, ele envia o código da aplicação no
formato JAR ou Python para estes. Finalmente, o SparkContext envia tarefas para os
executores.
Uma série de desafios vem à tona quando o volume de dados excede os tamanhos
convencionais, quando esses dados são variados (diferentes fontes, formatos e
estruturas) e são recebidos em uma velocidade maior do que a capacidade de
processamento.
ECOSSISTEMA HADOOP 23
A velocidade do processamento, armazenamento, leitura e transferência de dados nos
barramentos, frequentemente fazem com que apenas extratos (amostras) dos dados
sejam analisados o que não permite que todos os detalhes daquele conjunto de dados
sejam observados. O que se deseja é estudar as bases de dados por completo, não
apenas uma amostra, ou ao menos aumentar as amostras o máximo possível. A
necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse em se
empregar técnicas de análises que excedam as técnicas tradicionais. Extrair
conhecimento a partir de grandes massas de dados é de fato desafiador, pois os dados
são heterogêneos em sua representação e formato, além de apresentarem conteúdo
multidisciplinar.
As soluções de Big Data também têm como objetivo tratar dados brutos, heterogêneos
com e sem estrutura e sem padrão de formatação. Apesar dos bancos de dados
convencionais apresentarem bons desempenhos no tratamento de dados estruturados
e semiestruturados, as análises no contexto de Big Data requerem um modelo iterativo
(de consultas recursivas) para análise de redes sociais e emprego de técnicas de
clusterização.
O desafio do processamento dos grandes volumes de dados está relacionado com três
aspectos: armazenamento dos dados na memória principal, a grande quantidade de
iterações sobre os dados e as frequentes falhas (diferente dos bancos de dados
convencionais em que as falhas são tratadas como exceções, no contexto de Big Data,
as falhas são regras).
Nos últimos anos têm surgido alternativas para processamento de Big Data. Entre
essas se destacam sistemas chamados “in memory/main memory database systems”.
Tais sistemas priorizam o armazenamento em memória aumentando a performance
em várias ordens de magnitude, garantindo também escalabilidade, flexibilidade e
segurança a falhas.
ECOSSISTEMA HADOOP 24
O processamento intensivo e iterativo dos dados excede a capacidade individual de
uma máquina convencional. Nesse contexto, clusters (arquiteturas de aglomeração)
computacionais possibilitam a distribuição das tarefas e processamento paralelo dos
dados. Em alguns cenários, não será possível processar e armazenar todos os dados.
Nesse caso, é possível utilizar técnicas de mineração de dados para manipular os
dados, sumarizando-os, extraindo conhecimento e fazendo predições sem intervenção
humana visto que o volume dos dados, seus tipos e estruturas não permitem tal
intervenção.
ECOSSISTEMA HADOOP 25
processos, produtos e serviços em prol da conquista de novos clientes ou retenção dos
atuais.
A agilidade trazida por essa tecnologia torna-se, então, fundamental para realizar a
análise de informações em tempo real, o que assegura uma resposta mais rápida ao
mercado, garantindo inovação ao seu negócio para o aproveitamento das
oportunidades e, assim, um melhor posicionamento da sua empresa para a conquista
de novos clientes.
Conclusão
Com base no estudo realizado, torna-se evidente que não há como fugir do fenômeno
das tecnologias Ecossistemas, pois já é uma realidade muito mais próxima de nós do
que possamos imaginar. A sociedade atual se organiza em torno dos meios de
comunicação, com a popularização da internet, dos dispositivos móveis com acesso a
ela, a evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em
que a tecnologia e a informação ditam as regras.
Atualmente, a maioria das pessoas possui algum contato com algo que pode contribuir
para gerar essa grande quantidade de dados, de forma direta ou indireta.
As tecnologias para trabalhar com o oceano de dados que cresce em volume de forma
monstruosa e flui continuamente nos deixa otimista, porque se mostram
comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho com
grandes quantidades de dados.
ECOSSISTEMA HADOOP 26
Em face desse enorme manancial de dados, faz-se necessária a utilização de
mecanismos que visem descobrir padrões e informações até então desconhecidas.
Nesse ímpeto, o Data Mining apresenta-se como um agente capital na descoberta
desses conhecimentos.
Acreditamos que lidar com esses dados é uma missão que todo ser humano deverá
abraçar com cuidado porque eles são o código que nos mostrará como dar equilíbrio
ao nosso planeta.
ECOSSISTEMA HADOOP 27
BIBLIOGRAFIA
BAZERMAN, M. H.; MOORE, D. Processo decisório. 7. ed. Rio de Janeiro: Elsevier,
2010.
DUMBILL, E. et al. Big Data Now. 1. ed. Sebastopol: O'Reilly Media,Inc, 2012.
FRANÇA, T.; FARIA, F.; RANGEL, F.; FARIAS, C.; Oliveira, J. Big Social Data: Princípios
sobre coleta, tratamento e análise de dados sociais. Disponível em:
<http://www.inf.ufpr.br/sbbd-sbsc2014/sbbd/proceedings/artigos/pdfs/127.pdf>.
Acesso em 05 maio 2017.
COLUMBUS, Louis. Roundup of Big Data Forecasts and Market Estimates, 2012.
Disponível em: <http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-
of-big-data-forecasts-and-market-estimates-2012>. Acesso em: 05 maio 2017.
ECOSSISTEMA HADOOP 28
GHYKA, M. The geometry of art and life. New York: Dover Publications, 2014.
HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data para leigos. Rio de
Janeiro: Alta Books, 2016.
PETRY, A. Vida digital: o berço do Big Data. Revista Veja, São Paulo, p. 71-81, maio.
2013.
ECOSSISTEMA HADOOP 29
SCHMARZO, B. Estudo do Analítico do Big Data. Disponível em:
<https://brazil.emc.com/collateral/emc-perspective/h8668-ep-cloud-big-data-
analytics.pdf>. Acesso em 05 maio 2017
SCHNEIDER, R. D. Hadoop for dummies. Special edition. Mississauga: John Wiley &
Sons, 2012.
SCHÖNBERGER, V. M.; CUKIER, K. Big Data: a revolution that Will transform how we
live, work and think. Kindle edition. New York: Houghton Mifflin Harcourt Publ. Co.,
2013.
TAURION, Cezar. Cezar Taurion ensina o que é Big Data. Disponível em:
<blog.corujadeti.com.br/cezar-taurion-ensina-o-que-e-big-data>. Acesso em 05 maio
2017.
WEISS, S. M.; INDURKHYA, N.; ZHANG, T. et al. Text mining. Predictive methods for
analyzing unstructured information. New York: Springer, 2005.
ZUPPO, D.; COSTA, L.; FERNANDES, S. Big Data: desafios e análise estratégica. Rio
de Janeiro: COPPE UFRJ, 2013.
ECOSSISTEMA HADOOP 30