Sie sind auf Seite 1von 30

Ecossistema Hadoop

ECOSSISTEMA HADOOP 1
Ecossistema Hadoop

O Ecossistema de soluções oferecidas para o Big Data


As tecnologias que sustentam Big Data podem ser analisadas sob duas óticas: as
envolvidas com analytics, tendo Hadoop e MapReduce como nomes principais, e as
tecnologias de infraestrutura, que armazenam e processam os petabytes de dados.
Nesse aspecto, destacam-se os bancos de dados NoSQL (No significa not only SQL).

O Hadoop surgiu como uma solução adequada para Big Data por vários motivos:

– É um projeto open source, fato que permite a sua modificação para fins de
customização e o torna suscetível a melhorias constantes graças à sua rede de
colaboração.
– Proporciona economia, já que não exige o pagamento de licenças e suporta hardware
convencional, permitindo a criação de projetos com máquinas consideravelmente mais
baratas.
– O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação
de dados.
– O Hadoop é escalável: havendo necessidade de processamento para suportar maior
quantidade de dados, é possível acrescentar computadores sem necessidade de
realizar reconfigurações complexas no sistema.

Mas, o que é o Hadoop? É, na pratica, uma combinação de dois projetos separados,


que são o Hadoop MapReduce (HMR), que é um framework para processamento
paralelo e o Hadoop Distributed File System (HDFS). O HMR é um spinoff do
MapReduce, software que Google usa para acelerar as pesquisas endereçadas ao seu
buscador. O HDFS é um sistema de arquivos distribuídos otimizados para atuar em
dados não estruturados e é também baseado na tecnologia do Google, neste caso o
Google File System.

Nem todo usuário de Hadoop demanda uma escala massiva de dados ao nível do
Facebook ou Yahoo. No entanto, empresas com razoável volume de informações não
ECOSSISTEMA HADOOP 2
estruturadas, como bancos, varejo, empresas aéreas e outras vão encontrar no
Hadoop uma boa alternativa para o tratamento analítico dos seus dados.

O Big Data precisa trabalhar com distribuição de processamento e elasticidade, isto é,


suportar aplicações com volumes de dados que crescem substancialmente em pouco
tempo.

O problema é que os bancos de dados “tradicionais”, especialmente aqueles que


exploram o modelo relacional, como o MySQL, PostgreSQL e o Oracle, não se mostram
adequados a estes requisitos, por serem menos flexíveis.

Isso acontece porque bancos de dados relacionais normalmente se baseiam em quatro


propriedades que tornam a sua adoção segura e eficiente, razão pela quais soluções
deste tipo são tão populares: Atomicidade, Consistência, Isolamento e Durabilidade.
O problema é que a elasticidade, por exemplo, pode ser inviabilizada pela atomicidade
e pela consistência. É nesse ponto que entra em cena o conceito de NoSQL,
denominação atribuída à expressão em inglês “Not only SQL“.

Via de regra, escalar (torná-lo maior) um bancos de dados NoSQL é mais fácil e menos
custoso. Isso é possível porque, além de contar com propriedades mais flexíveis,
bancos deste tipo já são otimizados para trabalhar com processamento paralelo,
distribuição global (vários data centers), aumento imediato de sua capacidade e
outros.

Comunicação estratégia em Big Data


Hoje a Comunicação não é mais tão intangível assim, sendo cada vez mais uma
disciplina de alto valor dentro do marketing e da inteligência de negócios. Para dar
suporte a essa nova comunicação, buscamos respostas a questões cruciais, que
indicam como usar a comunicação, para melhorar a percepção da marca, gerar
impacto no comportamento de consumo e agregar valor à inteligência de mercado.

ECOSSISTEMA HADOOP 3
Daí a importância de se trazer o Big Data para o dia a dia da comunicação, deixar os
dados nos dizerem a que vieram.

O curioso é que poucos conseguem realmente imaginar como podemos trazer a ciência
dos dados para um universo no qual trabalhamos com o intangível, com percepções,
reações e julgamentos, tal como é (ou parece ser) o mundo da comunicação e das
relações públicas. Esse desafio ainda é enorme, mas é cada vez mais possível
desvendarmos padrões e tendências, estatisticamente mensuráveis, que se escondem
em publicações, artigos, posts, perfis e menções, ou ainda em cliques, buscas e
interações ocultas nas redes. Matila Ghyka, filósofo e diplomata romeno, matemático
dado para a poesia, costumava dizer que “quem quer estudar ou exercer a Magia deve
cultivar a Matemática”.

Desta forma podemos trabalhar com a Comunicação Estratégia dentro da organização,


pois hoje podemos dizer que não se faz mais magia na comunicação, aquela que
encanta e atrai, no meio dessa barafunda de informação que nos cerca, sem conhecer
melhor com quem, por que, como, onde e para que estamos falando. E isso, somente
os dados podem nos dizer, ajudando a nortear estratégia, planejamento, criação,
performance e, por fim, os resultados que realmente interessam aos negócios.

Os especialistas em comunicação trabalham integrados a cientistas de dados e


analistas de aquisição de clientes, imprimindo ciência onde antigamente eram
necessários inspiração e talento. Esse novo e multidisciplinar time analisa e desenha
perfis com base nos dados históricos do cliente e seus públicos. A partir daí, realiza
um criterioso trabalho de enriquecimento de dados, detalhando ainda mais esses perfis
e buscando, aqueles prospects que apresentam características semelhantes aos perfis
criados.

As empresas que reconhecem a necessidade de atingir um público cada vez mais


segmentado, incorporando novas soluções de análise de dados, estão um passo à
frente do seu concorrente. Outro ponto importante é a possibilidade de medir o

ECOSSISTEMA HADOOP 4
desempenho dessa ação, já que plataformas são criadas especificamente para o
processo, podendo assim visualizar a performance da estratégia e medir seus
resultados.

A competitividade do mercado exige maior competência e resultados


concretos em todas as ações. A comunicação aliada à inteligência digital
estabelece novos padrões de raciocínio e trabalho para os gestores das
marcas. Marketing e tecnologia andam de mãos dadas.

Visualização dos Dados em Big Data

A visualização dos dados em Big Data é uma das ferramentas que mais crescem no
Big Data e existe uma razão bem simples para isso: as máquinas precisam dos
humanos e quanto mais bem representados os dados estão visualmente, maior será a
compreensão humana. Em suma, dados dispostos de maneira visual permitem que os
indivíduos enxerguem padrões e tenham insights mais rapidamente.

A visualização de dados é mais que uma simples linha do tempo que conta uma
história. É preciso “cavar” mais para obter resultados significativos, não se trata apenas
imprimir um gráfico e deixar à vista até que alguém perceba algo. Entretanto, a

ECOSSISTEMA HADOOP 5
visualização de dados pode revelar mais facilmente insights que passariam
despercebidos pelos analistas.

Muitos analistas erram ao considerar a visualização de dados para obter “insights


acidentais” como algo separado da exploração de dados. A exploração de dados é o
que leva aos insights e os “insights inesperados” fazem parte do mesmo processo.

As soluções de visualização de dados foram desenvolvidas, inicialmente, como uma


ferramenta de negócios para as empresas, em escala corporativa, que poderiam ter
recursos para contratar estatísticos e cientistas de dados capazes de analisar os dados
capturados.

A imagem é capaz de traduzir para o cérebro, de forma didática, os inputs que ele
precisa extrair e processar as informações, agilizando o processo de tomada de
decisão. Além do tempo economizado, a visualização de Big Data por imagens atribui
mais assertividade às decisões dos gestores.

Quando os dados são transformados em imagens gráficas, a identificação de padrões


e tendências torna-se mais eficaz, já que o cérebro pode interpretá-los com mais
facilidade. Uma vez juntos e em ordem, é como se os dados contassem uma história
sobre o fenômeno estudado e, assim, as soluções parecem saltar diante dos olhos dos
analistas.

Se a tomada de decisões, por meio de dados, tornar-se regra em sua organização,


você deve fazer com que as informações estejam disponíveis sem intermediários e de
forma útil. Soluções de visualização de dados existem para ser colocada em uso por
pessoas que não são especializadas. Essas soluções orientam os gestores por meio de
um processo analítico self-service.

As técnicas de visualização vêm evoluindo muito e existe uma relação circular e intensa
dessas técnicas com o crescimento das demandas de análises de dados. Com maiores

ECOSSISTEMA HADOOP 6
volumes, precisamos de novas formas de visualização de dados, que nos mostrem
padrões antes irreconhecíveis, e, por sua vez, essas novas técnicas de visualização
incentivam o uso de mais análises, É um círculo virtuoso.

Em empresas cada vez mais movidas por dados, usar os dados para guiar decisões é
algo obrigatório e a visualização de dados pode ser usada para revelar a “verdade” de
alguns pontos para então criar uma história.

Descoberta dos Dados (Análise dos Dados)


Estudos recentes comprovam que 85% de toda a informação do mundo está em
formato textual (GDS PUBLISHING, 2008) (IBM, 2008).

Entretanto, analisar base de dados não estruturadas como textos sempre representou
um óbice pela grande dificuldade de sistematizar o significado do que está escrito.
Signos gramaticais como acentos e abreviações promovem significados adversos e
inserem uma contextualização diferente ao que foi dito (PINHEIRO, 2009). O segredo
para que uma empresa ultrapasse a concorrência e conquiste mais consumidores,
muitas vezes, se esconde em sua própria base de dados.

Informações cadastrais, transações com clientes, preferências dos consumidores –


referentes ou não à sua marca, e ainda outros tipos de interação nas redes sociais são
exemplos de alguns dados que, quando organizados e analisados, apontam caminhos
para o sucesso de um negócio.

Muitos empreendimentos já coletam uma enorme quantidade de informações de


diversas fontes, no entanto, para extrair conhecimento desse volume de dados é
preciso fazer correlações, identificar padrões e descobrir tendências entre eles.

A partir deste cenário, o desafio atual é fazer com que estes dados de várias
procedências se integrem, dialoguem e formem uma única unidade informativa. As
empresas que se prepararem adequadamente para este movimento sairão na frente,

ECOSSISTEMA HADOOP 7
pois terão a possibilidade de mapear comportamentos, entender mais o seu público e
o mercado e enxergarem novas oportunidades.

O volume é apenas o começo dos desafios dessa nova tecnologia, se temos um volume
enorme de dados, também obtemos a variedade dos mesmos. Já pensou na
quantidade de informações dispersas em redes sociais? Facebook, Twitter entre outros
possuem um vasto e distinto campo de informações sendo ofertadas em público a todo
segundo. Podemos observar a variedade de dados em e-mails, redes sociais,
fotografias, áudios, telefones e cartões de crédito (McAFFE et al., 2012). Seja qual for
a discussão, podemos obter infinitos pontos de vista sobre a mesma. Empresas que
conseguem captar a variedade, seja de fontes ou de critérios, agregam mais valor ao
negócio (Gartner). O Big Data escalona a variedade de informações das seguintes
formas (JEWELL, DAVE et al):

 Dados estruturados: são armazenados em bancos de dados, sequenciados em


tabelas;
 Dados semiestruturados: acompanham padrões heterogêneos, são mais difíceis
de serem identificados, pois podem seguir diversos padrões;
 Dados não estruturados: são misturas de dados com fontes diversificadas como
imagens, áudios e documentos online.

Um em cada três líderes não confiam nos dados que recebem (IBM). Para colher bons
frutos do processo do Big Data é necessário obter dados verídicos, de acordo com a
realidade. O conceito de velocidade é bem alinhado ao conceito de veracidade pela
necessidade constante de análise em tempo real, isso significa dados que condizem
com a realidade daquele momento, pois dados passados não podem ser considerados
dados verídicos para o momento em que é analisado. A relevância dos dados coletados
é tão importante quanto conceito de velocidade. A verificação dos dados coletados
para adequação e relevância ao propósito da análise é um ponto chave para se obter
dados que agreguem valor ao processo (HURWITZ, NUGENT, HALPER & KAUFMAN,
2016).

ECOSSISTEMA HADOOP 8
Quanto maior a riqueza de dados, mais importante é saber realizar as perguntas certas
no início de todo processo de análise (BROWN, ERIC, 2014). É necessário estar focado
para a orientação do negócio, o valor que a coleta e análise dos dados trarão para o
negócio. Não é viável realizar todo o processo de Big Data se não se tem
questionamentos que ajudem o negócio de modo realístico. Da mesma forma é
importante estar atento aos custos envolvidos nessa operação, o valor agregado de
todo esse trabalho desenvolvido, coleta, armazenamento e análise de todos esses
da/dos tem de compensar os custos financeiros envolvidos (TAURION, 2013).

Tratamento de Grande Volume de Dados: Quando Processar se Torna Difícil?


Como vimos anteriormente, uma série de desafios vem à tona quando o volume de
dados excede os tamanhos convencionais, quando esses dados são variados
(diferentes fontes, formatos e estruturas) e são recebidos em uma velocidade maior
do que a capacidade de processamento.

Os elementos da plataforma de Big Data administram dados de novas maneiras em


comparação às bases relacionais tradicionais. Isso por causa das necessidades de ter
escalabilidade e alto desempenho requeridos para administrar tanto dados
estruturados quanto não estruturados.

Os objetivos dos negócios precisam ser focados em entregar dados de confiança e


com qualidade para a organização no tempo certo e no contexto certo. Para garantir
essa confiança, é preciso estabelecer regras comuns para qualidade dos dados com
ênfase em precisão e plenitude.

Precisa de abordagem compreensiva para desenvolver metadados corporativos,


mantendo o controle da linhagem e a governança das informações para dar suporte à
integração destes dados.

ECOSSISTEMA HADOOP 9
Uma das técnicas que nos ajudam a identificar insigths, aumentar a fidelidade do
público, reduzir a rotatividade de clientes, gerar mais rentabilidade e,
consequentemente, ficar à frente da concorrência é a Mineração de Dados.

O que é mineração de dados?


A mineração de dados consiste no uso de um conjunto de tecnologias e técnicas que
permitem automatizar a busca em grandes volumes de dados por padrões e tendências
não detectáveis por análises mais simples.

O Data Mining, como é conhecido em inglês, utiliza algoritmos sofisticados para


segmentar os dados e avaliar a probabilidade de ocorrência de determinados eventos
no futuro.

Este tipo de análise dá aos gestores embasamento de altíssimo valor para tomada de
decisões estratégicas, permitindo detectar de forma precoce a ocorrência de
tendências do mercado e desta forma antecipando suas ações para responder a novos
cenários.

As principais propriedades da mineração de dados são:

 Detecção automática de padrões;


 Predição de eventos;
 Geração de informação para ações práticas;
 Foco em grandes conjuntos e bancos de dados.

A mineração de dados responde a questões que não se poderia responder com


técnicas similares mais simples. A seguir você vai conhecer algumas de suas
aplicações.

A mineração de dados envolve explorar e analisar grandes quantidades de informações


para encontrar padrões. As técnicas vieram dos campos da estatística e da Inteligência

ECOSSISTEMA HADOOP 10
Artificial, com um pouco de gestão de base de dados na mistura. Geralmente, o
objetivo da mineração de dados é dividir ou prever.

Os projetos de mineração de dados no contexto de Big Data precisam de três


componentes principais.

1. O primeiro é um cenário de aplicação que permita que a demanda por


descoberta de conhecimento seja identificada;
2. O segundo é um modelo que realize a análise desejada;
3. O terceiro é uma implementação adequada capaz de gerenciar um grande
volume de dados.

Quanto mais conhecimento dos dados os gestores tiverem, mais aspectos dos negócios
poderão otimizar — se você agir a tempo. Assim como o tempo pode desatualizar os
dados, os tomadores de decisão precisam de informações a tempo de usá-las para
ganhar vantagens competitivas. A empresa que identificar e agir primeiro com
conhecimento será a empresa que sairá vencedora. Isso pode melhorar o
relacionamento com o cliente, aprofundar análises competitivas e de mercado e
aumentar a rentabilidade. Informações podem apoiar o planejamento e a execução
dos negócios. Empresas que aproveitam ao máximo as informações podem usá-las
não apenas como um fator de melhoria, mas como seu modelo de negócios. Suas
análises e projeções de comportamento do cliente são a base de seus modelos de
negócios e as têm impulsionado ao sucesso.

Em meio a esse novo cenário, no qual as pessoas passaram de meras telespectadoras


e assumiram também a condição de produtores de informação, temos uma sociedade
centrada na era do Big Data, em que a quantidade de bytes produzidos na web, e de
maneira mais pontual nas redes sociais, necessitam de filtros cada vez mais dinâmicos
para transformar este manancial de dados em informação útil e relevante.
Diante desse contexto, o Data Mining apresenta-se como uma ferramenta que pode
alicerçar estes filtros, uma vez que ele configura-se como um instrumento eficiente na

ECOSSISTEMA HADOOP 11
busca de padrões de grandes volumes de dados até então desconhecidos. Assim, é
necessário compreender também que, como boa parte desses dados estão dispostos
de uma forma não estruturada, uma leitura a “olho nu” torna o processo de análise
oneroso e muitas vezes inviável face a premência na análise dessas informações.

Ademais, em uma conjuntura na qual a quantidade de dados passou a ser um óbice


tanto para as organizações quanto para as empresas, o emprego de técnicas de
mineração de dados passa a ser condição fulcral na busca de insights e na produção
de conhecimento.

Ao analisar a jornada do consumidor de determinada empresa, por exemplo, a


mineração de dados é capaz de dizer, mediante a identificação de padrões, quando
um cliente está insatisfeito. Essa análise pode antecipar informações essenciais para
gestores e decision makers que, por sua vez, terão dados suficientes para adotar novas
estratégias e, assim, evitar a perda do cliente.

Análises avançadas não exigem Big Data, entretanto, ser capaz de aplicá-las com Big
Data fornece resultados importantes.

Recomendações para Desenvolvimento de Projetos de Big Data


O que você precisa saber?

Antes de falarmos sobre as especificidades do seu próprio projeto, veja algumas


questões que a maioria dos profissionais que estão trabalhando com Big Data gostaria
de ter ficado sabendo antes de começarem seus projetos.

Como a maioria dos projetos de Big Data falha por falta de clareza e pela incapacidade
de demonstrar a funcionalidade da iniciativa, você mesmo deve se responsabilizar por
isso para trazer foco e comprovação ao seu projeto. Seguem três dicas úteis para
garantir que o seu projeto já comece dando certo e continue em operação.

ECOSSISTEMA HADOOP 12
 Defina objetivos claros e administre as expectativas
Se a sua organização já precisa de dados para determinados processos de negócios
(como detecção de fraudes ou análise de mercado), pense em como Big Data pode
melhorar ou valorizar esses processos. Sem um foco claro e um valor perceptível aos
usuários de negócios, o projeto estará condenado ao fracasso.

 Defina as métricas que comprovam o valor do projeto


Métricas claramente definidas e que se ajustem aos objetivos podem evitar uma
grande quantidade de problemas.
Pergunte a si mesmo como pode medir o impacto do seu projeto no contexto das suas
metas.

 Seja estratégico sobre ferramentas e codificação manual


Adote ferramentas que possam aumentar a produtividade da equipe de
desenvolvimento por meio do aproveitamento das habilidades e do conhecimento da
qualidade dos seus dados.

Como seria o projeto certo?


Se você está pensando em um projeto tático e específico, que pode ser adaptado
posteriormente para a empresa como um todo, está correto, e esses quatro
componentes são importantes:

 Valor demonstrável
O projeto certo é aquele em que o valor é compartilhado de maneira igual entre a TI
e a unidade de negócio que você está tentando ajudar, isso significa proporcionar um
valor claro para um departamento, uma unidade de negócio ou um grupo, de forma
que eles possam ver.

 Patrocínio
Os projetos de Big Data precisam de defensores e patrocinadores em altos cargos,
que estejam dispostos a defender o trabalho que você está fazendo.

ECOSSISTEMA HADOOP 13
 Um efeito de jogo de boliche
A importância estratégica do seu projeto tático é vital. Além de provar, sem sombra
de dúvida, que Big Data pode ajudar a unidade de negócio que você está apoiando, é
bom se certificar de que o valor possa ser comunicado facilmente para a empresa em
geral.

 Habilidades transferíveis
É preciso se certificar de que você pode aprender as habilidades, as capacidades e as
lições certas do seu primeiro projeto. Mais enfaticamente, é preciso garantir que tudo
isso seja documentado para que você possa transferir conhecimento para o próximo
projeto. Lembre-se: se a sua meta é o sucesso, então você já está se preparando para
futuros projetos.

Desafios para implantarmos um projeto de Big Data.

Primeiro, temos os desafios Estruturais, que é composto de:

 Codificação e dataficação. Será necessário o desenvolvimento ou


aprimoramento de metodologia para codificação de informações e de tecnologia
para captação de novos dados. Big Data fundamenta-se em grande quantidade
e variedade de dados e tudo que puder ser dataficado ajudará no
aprimoramento dos modelos analíticos.
 Rede wi-fi. A disponibilidade e qualidade da rede de transmissão de dados
digitais ainda não consegue acompanhar a velocidade da oferta de serviços
móveis fundamentais na captação de dados.
 Armazenagem. Embora poucos apontem a armazenagem como gargalo da
cadeia produtiva do Big Data, destacamos o desafio da constante ampliação do
serviço já que não existe nenhuma expectativa de desaceleração na geração de
dados.

ECOSSISTEMA HADOOP 14
 Compartilhamento. Plataformas para compartilhamento de dados serão cada
vez mais comum. Vemos como desafio o desenvolvimento de linguagens e
interface mais acessíveis.
 Analítica. Nesse ponto da cadeia está o maior gargalo pela escassez dos
chamados cientistas de dados. Tecnicamente, desenvolver modelos analíticos é
um desafio porque cada modelo é adequado a um problema em um
determinado contexto e porque precisa ser dinâmico para manter-se atualizado.
Cada modelo analítico pode ser considerado uma peça única e sua efetividade
tem que ser colocada à prova continuamente.

Em segundo, temos os desafios Culturais, que é composto de:

 Apropriação do conceito. Em primeiro lugar, não apenas em importância,


mas também como pré-requisito para todos os demais desafios que seguirão,
está a compreensão de Big Data. O desafio é percebê-lo não como uma solução
em tecnologia da informação, mas como um ativo que deve ser acionado para
encontrar as melhores soluções dentro do planejamento estratégico de uma
instituição.
 Compartilhamento de dados. Sabemos que esses dados diversificados são
captados e controlados por diferentes agentes do ecossistema e que seria de
extrema ineficiência captar os mesmos dados todas as vezes que eles fossem
necessários. Diante dessas constatações, podemos afirmar que o
compartilhamento de dados é fundamental para a utilização efetiva de dados
digitais. O grande desafio do compartilhamento é mais que um problema de
tecnologia.
 Propriedade de dados. Importância do reconhecimento de que o valor do Big
Data não está em possuir ou controlar os dados, mais no valor que extrai da
correlação entre diferentes dados.
 Colocar o ser humano no comando. Em concordância com a curva de
Gartner de adoção de tecnologia, destacamos como grande desafio a formação
de massa crítica para participar do debate sobre a utilização de dados digitais

ECOSSISTEMA HADOOP 15
como novo paradigma de conhecimento. O desconhecimento faz com que Big
Data seja, na maioria das vezes, exageradamente enaltecido ou injustamente
desqualificado. Acreditamos que as duas posturas extremistas cometem o
mesmo erro na origem: não colocam o ser humano no comando. A primeira
será a responsável pela escalada vertiginosa ao pico das expectativas porque
cria a expectativa de que a tecnologia sozinha trará todas as soluções para
nossos problemas. A segunda postura comandará a queda livre em direção ao
poço da desilusão atribuindo à tecnologia todos os impactos negativos de sua
adoção. Colocar o ser humano no comando de qualquer projeto em Big Data é
reconhecer que nenhuma tecnologia pode prescindir da inteligência que deve
agir não apenas para alcançar os desejados fins, mas também para escolher
com responsabilidade os adequados meios.
 Design de redes. A falta de cientistas de dados e de profissionais para tomar
decisões a partir de modelos preditivos tem sido destacada como gargalo por
todas as empresas de consultoria no assunto. No entanto, identificamos outro
desafio na formação profissional para trabalhar com Big Data: a habilidade de
ver e desenhar redes complexas. Big Data é um código digital de relações que
são os links de uma rede. Decifrar e utilizar as informações contidas nesses
códigos passa necessariamente por entender as redes complexas em que estão
os problemas que desejamos resolver. Acreditamos que design de redes
complexas será uma competência necessária e valorizada para se trabalhar com
Big Data.
 Privacidade. A polêmica questão da privacidade na utilização de dados digitais
precisará evoluir para o campo da ética para ser resolvida. Antes, porém será
preciso ficar clara a diferença entre dados e informação. Dado é a representação
física de um evento no tempo e espaço que não agrega fundamento para quem
o recebe, não podendo ser possível entender o que ele representa ou para que
ele exista, porém, no momento que existir uma agregação com outro dado ele
passa a ser uma informação. O pressuposto do Big Data é que dados em grande
quantidade de um determinado domínio quando transportado para outro, gera

ECOSSISTEMA HADOOP 16
informações (dados agregados) e insights relevantes para a compreensão de
fenômenos que não podem ser explicados em uma relação causa-efeito linear.

Afirmar que Big Data é sinônimo de perda de privacidade é desconhecer o


assunto ou tratá-lo de maneira antiética. Impedir que a utilização inadequada
dos dados digitais seja considerada a prática corrente de projetos Big Data é o
maior desafio quando se trata de privacidade.
 Metodologias. Gerar conhecimento sobre ambientes complexos a partir de
dados digitais exigirá novos processos. Acreditamos que, independente da
prontidão que setores e áreas corporativas tenham para Big Data, as
instituições aumentarão seus investimentos em tecnologia da informação nos
próximos anos para avançar do estágio de onde se encontram em relação ao
Big Data. O primeiro desafio metodológico será o de medir esse grau de
prontidão. Ao contrário do que se pensa estar pronto para análise de dados é
muito mais que ter dados, hardware, software e cientistas de dados. Outro
desafio metodológico será o de definir o problema em um sistema complexo.
Em qualquer contexto definir adequadamente o problema é essencial para
encontrar a melhor solução que responda às condições humanas (desejo),
técnicas (possibilidade) e econômicas (viabilidade).

Em terceiro e último, temos os desafios Estratégicos, que é composto de:

 Fraquezas-ameaças. O principal obstáculo tanto no ambiente externo


quanto no interno é a baixa compreensão do assunto, essa deficiência tem
como consequências o desconhecimento da importância de compartilhar
dados e o baixo investimento em ferramentas e metodologias específicas
para análise de dados. No ambiente externo isso se manifesta na falta de
pressa da sociedade em exigir uma política pública de normatização e
investimento em infraestrutura e educação para Big Data.
 Forças-ameaças. Outras ameaças ao Big Data no Brasil sãoa baixa
qualidade e o alto custo da rede móvel de comunicação. Sendo a mobilidade

ECOSSISTEMA HADOOP 17
a principal força motora do Big Data pela diversidade de dados de dinâmica
humana que ela propicia, essa ameaça terá forte impacto na expansão da
base de dados. Por outro lado, a base de dados existente e qualidade do
setor de TI são forças que podem ser usadas para reverter esse quadro. O
desafio é o desenvolvimento de projetos em análise de dados de grande
visibilidade e relevância para justificar o investimento na melhoria da rede e
a queda no custo, melhorando, assim, a penetração da rede em regiões e
segmentos da população em que o acesso ainda é restrito.
 Fraquezas-oportunidades. Apesar de apresentar muitas ameaças, o Big
Data, o Brasil oferece também condições para o desenvolvimento de boas
vantagens competitivas. A principal delas diz respeito à rápida adesão da
população a novas tecnologias e processos fortemente dependentes dela.
Esse fator, somado à forte adesão às redes sociais e à participação online e
ao conceito de que inclusão digital é importante para a inclusão social, geram
as condições ideais para a geração espontânea de dados de alta qualidade
para análise preditiva de comportamento humano e dinâmica social. O
desafio aqui é o desenvolvimento de plataformas para compartilhamento
desses dados.
 Forças-oportunidade. O quadrante onde forças e oportunidades se
encontram só são desafios até o momento do seu reconhecimento. A partir
daí torna-se natural o caminho de associar esses fatores positivos para
ganhar vantagem competitiva em algumas áreas específicas do Big Data.

As condições de geração espontânea de dados digitais citadas no item anterior,


associadas à alta capacidade de armazenagem e segurança dos dados e ao bom
desenvolvimento do setor de TI colocam o Brasil em posição privilegiada na parte
inicial da cadeia de valor de Big Data: desenvolvimento de métodos de codificação, de
dispositivos, sensores e serviços para dataficação de informações importantes.
O desafio na parte alta da cadeia de valor é transformar o interesse dos tomadores de
decisão e capacidade de articulação para o desenvolvimento de novos modelos de
negócio, metodologias e indicadores de sucesso para ambiente Big Data.

ECOSSISTEMA HADOOP 18
Alguns pontos importantes na gestão de projetos de Big Data precisam ser definidos.

E isso vai além da simples escolha da abordagem.

É necessário entendermos a gestão de riscos, pessoas (especialmente do cientista de


dados), patrocínio para o projeto, adequação de valor ao negócio, retorno sobre o
investimento (ROI) e, de uma forma muito especial, a gestão do entusiasmo.

Operacionalização dos Projetos de Big Data


À medida que o Big Data torna-se mais e mais importante para as empresas, seu uso
de forma inteligente e inovadora será uma ferramenta de vantagem competitiva
inestimável. Portanto, adotar Big Data está deixando de ser uma opção para ser
compulsório nas empresas. A questão não é mais se vou ou não adotar Big Data, mas
quando e qual estratégia adotarei. Antes de qualquer coisa é importante reconhecer
que iniciativas de Big Data são diferentes de muitas outras iniciativas de TI.

Big Data impacta processos de negócio, fontes de dados (começa-se a utilizar cada
vez mais fontes externas à organização), arquitetura de dados e sistemas,
infraestrutura e suporte tecnológico (utilização de bancos de dados NoSQL), estrutura
organizacional e capacitação. Pode afetar de forma drástica a corporação, inclusive
mudando o mindset da tomada de decisões baseada em intuição para fatos.

Indiscutivelmente, a complexidade do mundo de negócios atual não permite apenas


decisões baseadas em intuição e experiência profissional. Elas continuam valendo, sem
dúvida, mas devem ser emparelhadas às análises de fatos muitas vezes desconhecidos
pelos executivos.

Os dados utilizados em projeto de Big Data são geralmente dados não estruturados,
esses são de difícil acesso e recuperação e muitas vezes não dispõem de componentes
necessários para identificação de tipo de processamento e interpretação, tornando o

ECOSSISTEMA HADOOP 19
seu uso um desafio principalmente em aplicativos empresariais. Esse tipo de dados
requer dispositivos de armazenamento e processamento (a operacionalização) que
suportem seu formato e garantam melhor eficiência em suas análises.

As organizações que mais têm feito progresso na operacionalização de seus esforços


de Big Data são aquelas que possuem governança bem estruturada, abordagem de
implementação disciplinada e executivos engajados.

No entanto, muitas empresas ainda estão no meio do caminho para verdadeiramente


tirarem proveito das análises geradas, citando as restrições orçamentárias e a
integração como grandes desafios para a operacionalização, analisa John Brahim, líder
da divisão global de Insights & Data da Capgemini.

Quatro pontos para tornar projetos de Big Data operacionais


A Capgemini aplica um conjunto de princípios essenciais para tonar os projetos de Big
Data operacionais.

1. Garantir o apoio e a liderança dos executivos em iniciativas de Big Data. Nada abaixo
do alto escalão será suficiente para promover uma mudança duradoura.

2. Ampliar a arquitetura de informações com a modernização dos sistemas de


armazenamento de dados e a integração de novas tecnologias de Big Data.

3. Criar uma estrutura colaborativa de governança de dados que traga agilidade


organizacional, incorporando, ao mesmo tempo, segurança e qualidade dos dados.

4. Trabalhar com foco em uma cultura dinâmica, voltada a dados, que envolva tanto
os executivos como os funcionários nos estágios iniciais do desenvolvimento, usando
e aprimorando as soluções de Big Data.

A plataforma de Big Data é o conjunto de funções que levam à alta performance do


processamento de Big Data. Uma plataforma inclui a capacidade de integrar dados,
administrá-los e aplicar-lhes um sofisticado processamento computacional.

ECOSSISTEMA HADOOP 20
O que é o APACHE SPARK

O Spark permite que aplicações em clusters Hadoop executem até 100 vezes mais
rápido em memória e até 10 vezes mais rápido em disco, desenvolver rapidamente
aplicações em Java, Scala ou Python. Além disso, vem com um conjunto integrado de
mais de 80 operadores de alto nível e pode ser usado de forma interativa para
consultar dados diretamente do console.

O framework SPARK para processamento de Big Data construído com foco em


velocidade, facilidade de uso e análises sofisticadas. Está sendo desenvolvido desde
2009 pelo AMP Lab da Universidade de Califórnia em Berkeley e em 2010 seu código
foi aberto como projeto da fundação Apache.

O Spark tem muitas vantagens se comparado com as outras tecnologias de Big Data
e do paradigma MapReduce, como o Hadoop.

Inicialmente, o Spark oferece um framework unificado e de fácil compreensão para


gerenciar e processar Big Data com uma variedade de conjuntos de dados de diversas
naturezas (por exemplo, texto, grafos, etc.), bem como de diferentes origens (batch
ou streaming de dados em tempo real).
Ele fornece APIs de alto nível em Java, Scala, Python e R, além de suportar gráficos
de execução em geral. Ele também suporta um rico conjunto de ferramentas de alto-
nível, incluindo Spark SQL para SQL e processamento de dados estruturados, MLlib
para aprendizado de máquina, GraphX para processamento gráfico e Spark Streaming
para processamento de dados em tempo real.

ECOSSISTEMA HADOOP 21
Diversas empresas e organizações utilizam Spark em suas aplicações. Entre elas,
podemos destacar: Amazon, Baidu, eBay Inc. (agregação de logs de transações e
análises), Yahoo!, Grupon, NASA JPL ‒ Deep Space Network e Yahoo!

O Spark tem como base ”Resilient Distributed Datasets (RDD)”, que é uma estrutura
abstrata para gerenciamento de dados em memória que fornece uma forma restringida
de memória compartilhada em cluster de computadores. O Spark também fornece uma
interface iterativa de programação e, além de permitir a implementação de jobs
MapReduce em memória, ele foca na possibilidade de implementação de algoritmos
que inerentemente fazem inúmeras iterações sobre dados, tais como: algoritmos
iterativos de aprendizagem de máquina e grafos, incluindo
PageRank, K-means clustering, e regressão logística.

As principais operações paralelas que podem ser aplicadas em RDDs são: reduce,
collect e foreach. A operação reduce combina elementos dos conjuntos de dados
utilizando uma função de associação. Já a operação collect envia todos os elementos
de um conjunto de dados (RDD) para o programa driver. Por fim, a operação foreach
aplica uma determinada função, informada pelo programador, em cada elemento de
um RDD. Diferentemente de outras plataformas, o Spark não suporta a operação de
redução de forma paralela, isto é, os resultados dessa operação são coletados apenas
pelo programa driver.

Aplicações Spark executam como conjuntos de processos independentes em um


cluster, coordenados pelo objeto SparkContext presente no programa principal
(também chamado de programa driver). Para ser executado em um cluster, o
SparkContext pode se conectar a vários gerenciadores (gerenciador próprio ou
Mesos/YARN), que alocam recursos entre os programas. Uma vez conectado, o Spark
adquire executores em nós do cluster, que são processos que realizam cálculos e
armazenam dados da aplicação.

ECOSSISTEMA HADOOP 22
Aplicações Spark executam como conjuntos de processos independentes em um
cluster, coordenados pelo objeto SparkContext presente no programa principal
(também chamado de programa driver). Para ser executado em um cluster, o
SparkContext pode se conectar a vários gerenciadores (gerenciador próprio ou
Mesos/YARN), que alocam recursos entre os programas. Uma vez conectado, o Spark
adquire executores em nós do cluster, que são processos que realizam cálculos e
armazenam dados da aplicação. Em seguida, ele envia o código da aplicação no
formato JAR ou Python para estes. Finalmente, o SparkContext envia tarefas para os
executores.

Como trabalhar com a tecnologia in-memory

Uma série de desafios vem à tona quando o volume de dados excede os tamanhos
convencionais, quando esses dados são variados (diferentes fontes, formatos e
estruturas) e são recebidos em uma velocidade maior do que a capacidade de
processamento.

Quando se deseja realizar processamento de linguagem natural de um texto muito


grande a fim de realizar análises estatísticas do texto, o processamento e memória
necessários excede a capacidade de computadores pessoais convencionais. Ou seja,
os recursos de hardware (como a memória RAM, por exemplo) não comportam o
volume dos dados.

ECOSSISTEMA HADOOP 23
A velocidade do processamento, armazenamento, leitura e transferência de dados nos
barramentos, frequentemente fazem com que apenas extratos (amostras) dos dados
sejam analisados o que não permite que todos os detalhes daquele conjunto de dados
sejam observados. O que se deseja é estudar as bases de dados por completo, não
apenas uma amostra, ou ao menos aumentar as amostras o máximo possível. A
necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse em se
empregar técnicas de análises que excedam as técnicas tradicionais. Extrair
conhecimento a partir de grandes massas de dados é de fato desafiador, pois os dados
são heterogêneos em sua representação e formato, além de apresentarem conteúdo
multidisciplinar.

As soluções de Big Data também têm como objetivo tratar dados brutos, heterogêneos
com e sem estrutura e sem padrão de formatação. Apesar dos bancos de dados
convencionais apresentarem bons desempenhos no tratamento de dados estruturados
e semiestruturados, as análises no contexto de Big Data requerem um modelo iterativo
(de consultas recursivas) para análise de redes sociais e emprego de técnicas de
clusterização.

O desafio do processamento dos grandes volumes de dados está relacionado com três
aspectos: armazenamento dos dados na memória principal, a grande quantidade de
iterações sobre os dados e as frequentes falhas (diferente dos bancos de dados
convencionais em que as falhas são tratadas como exceções, no contexto de Big Data,
as falhas são regras).

Nos últimos anos têm surgido alternativas para processamento de Big Data. Entre
essas se destacam sistemas chamados “in memory/main memory database systems”.
Tais sistemas priorizam o armazenamento em memória aumentando a performance
em várias ordens de magnitude, garantindo também escalabilidade, flexibilidade e
segurança a falhas.

ECOSSISTEMA HADOOP 24
O processamento intensivo e iterativo dos dados excede a capacidade individual de
uma máquina convencional. Nesse contexto, clusters (arquiteturas de aglomeração)
computacionais possibilitam a distribuição das tarefas e processamento paralelo dos
dados. Em alguns cenários, não será possível processar e armazenar todos os dados.
Nesse caso, é possível utilizar técnicas de mineração de dados para manipular os
dados, sumarizando-os, extraindo conhecimento e fazendo predições sem intervenção
humana visto que o volume dos dados, seus tipos e estruturas não permitem tal
intervenção.

A tecnologia “in memory”, ou os bancos de dados “in memory”, “main memory” ou


“memory resident” tem apresentado uma solução bastante promissora a esse grande
desafio. Sua proposta é a de carregar as informações em disco rígido para a memória
do servidor. Assim, como o próprio nome sugere, o acesso às informações é feito
diretamente na memória do computador, e não mais no disco, o que diminui
drasticamente o tempo de processamento, possibilitando “varrer” terabytes de dados
em segundos.

Os bancos de dados “in memory” possuem vantagens dos bancos de dados


tradicionais, mas com o grande diferencial de oferecerem alto desempenho para
aplicações que necessitam de acesso frequente aos dados. A tecnologia “in memory”
também reduz os custos com TI, uma vez que sua utilização não depende de
investimentos em hardware e não demanda os já conhecidos altos valores atribuídos
à manutenção de banco de dados.

As grandes vantagens do in-memory computing para o seu negócio:


Dados geram informações, e com elas, é possível tomar decisões mais assertivas para
o seu negócio. O mercado é competitivo e quem consegue avaliar um maior volume
de dados ‒ bem como realizar análises certeiras mais rapidamente ‒ sai na frente. Isso
porque a tomada de decisões estratégicas não deve ser baseada no sentimento do
empreendedor, mas em dados reais e precisos. Desta forma é possível otimizar

ECOSSISTEMA HADOOP 25
processos, produtos e serviços em prol da conquista de novos clientes ou retenção dos
atuais.

A agilidade trazida por essa tecnologia torna-se, então, fundamental para realizar a
análise de informações em tempo real, o que assegura uma resposta mais rápida ao
mercado, garantindo inovação ao seu negócio para o aproveitamento das
oportunidades e, assim, um melhor posicionamento da sua empresa para a conquista
de novos clientes.

Conclusão
Com base no estudo realizado, torna-se evidente que não há como fugir do fenômeno
das tecnologias Ecossistemas, pois já é uma realidade muito mais próxima de nós do
que possamos imaginar. A sociedade atual se organiza em torno dos meios de
comunicação, com a popularização da internet, dos dispositivos móveis com acesso a
ela, a evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em
que a tecnologia e a informação ditam as regras.

Atualmente, a maioria das pessoas possui algum contato com algo que pode contribuir
para gerar essa grande quantidade de dados, de forma direta ou indireta.
As tecnologias para trabalhar com o oceano de dados que cresce em volume de forma
monstruosa e flui continuamente nos deixa otimista, porque se mostram
comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho com
grandes quantidades de dados.

O poder de quem detém a expertise de trabalhar com grandes quantidades de dados


é imensurável, a aplicação se estende por diversas áreas, não ficando restrito apenas
ao um setor. Podemos concluir que as tecnologias de Ecossistema revelam um divisor
de águas e seu impacto na sociedade poderá ser comparado com o advento da
internet, que hoje se tornou algo indispensável em nossas vidas.

ECOSSISTEMA HADOOP 26
Em face desse enorme manancial de dados, faz-se necessária a utilização de
mecanismos que visem descobrir padrões e informações até então desconhecidas.
Nesse ímpeto, o Data Mining apresenta-se como um agente capital na descoberta
desses conhecimentos.

A busca de informação valiosa em grandes volumes de dados. Data Mining é o esforço


desenvolvido por homens e máquinas. Os homens desenham os bancos de dados,
descrevem os problemas e setam os objetivos. As máquinas mineram os dados, em
busca de padrões que atendam a esses objetivos.

O que é importante nas tecnologias de ecossistemas, é que, a análise digital não


neutraliza a importância humana na tomada de decisão e na inovação, ao contrário, a
profusão de modelos preditivos e correlações de dados demandarão como nunca a
capacidade humana de gerar insights, discernir e decidir. Dados digitais iluminam as
pessoas e a rede vital que elas estabelecem entre si, com a natureza e com os objetos
que estão à sua volta.

Acreditamos que lidar com esses dados é uma missão que todo ser humano deverá
abraçar com cuidado porque eles são o código que nos mostrará como dar equilíbrio
ao nosso planeta.

ECOSSISTEMA HADOOP 27
BIBLIOGRAFIA
BAZERMAN, M. H.; MOORE, D. Processo decisório. 7. ed. Rio de Janeiro: Elsevier,
2010.

BRAHIM, J. Relatório da Capgemini e Informática revela os hábitos de sucesso das


equipes responsáveis por Big Data. Disponível em:
<https://www.br.capgemini.com/noticia/relatorio-da-capgemini-e-informatica-revela-
os-habitos-de-sucesso-das-equipes-responsaveis>. Acesso em 05 maio 2017.

BROWN, E. Haddop e Big Data. Disponível em: <http://ericbrown.com/hadoop-big-


data.htm>. Acesso em 05 maio 2017.

CANARY, V. A tomada de decisão no contexto do Big Data. UFRGS, 2013.

COMPUTERWORLD. Hadoop cimenta importância para Big Data. Disponível em:


http://www.computerworld.com.pt/2012/06/19/hadoop-cimenta-importancia-para-
bigdata/. Acesso em: 24 maio 2013.

DAVENPORT, T. H. Big Data no trabalho. Rio de Janeiro: Campus/Elsevier, 2014.

DUMBILL, E. et al. Big Data Now. 1. ed. Sebastopol: O'Reilly Media,Inc, 2012.

FRANÇA, T.; FARIA, F.; RANGEL, F.; FARIAS, C.; Oliveira, J. Big Social Data: Princípios
sobre coleta, tratamento e análise de dados sociais. Disponível em:
<http://www.inf.ufpr.br/sbbd-sbsc2014/sbbd/proceedings/artigos/pdfs/127.pdf>.
Acesso em 05 maio 2017.
COLUMBUS, Louis. Roundup of Big Data Forecasts and Market Estimates, 2012.
Disponível em: <http://www.forbes.com/sites/louiscolumbus/2012/08/16/roundup-
of-big-data-forecasts-and-market-estimates-2012>. Acesso em: 05 maio 2017.

GDS PUBLISHING. Managing the data explosion. Business management, 2008.

ECOSSISTEMA HADOOP 28
GHYKA, M. The geometry of art and life. New York: Dover Publications, 2014.

GOUVEIA, W. MapReduce é o que há. Disponível em:


http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que-ha.html.
Acesso em: 21 maio 2013.

HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data para leigos. Rio de
Janeiro: Alta Books, 2016.

JEWELL, D.; BARROS, R. D.; DIEDERICHS, S. et al. Performance and capacity


implications for Big Data. IBM/Redbooks, 2014.

LEMOS, A. Cibercultura e mobilidade: a era da conexão. Disponível em:


<http://www.razonypalabra.org.mx/anteriores/n41/alemos.html>. Acesso em 05
maio 2017.

LIMA JUNIOR, W. T. Big Data, jornalismo computacional e data journalism: estrutura,


pensamento e prática profissional na web de dados. In: Estudos em Comunicação, v.
12, p. 207-222, [s.l], 2012.

NONOHAY, R. G. Tomada de decisão e os sistemas cerebrais. UFRGS, 2012.

OHLHORST, Frank. Diversos artigos. Disponíveis em: <www.the-tech-


prophet.com/category/big-data/>. Acesso em 05 maio 2017.

PETRY, A. Vida digital: o berço do Big Data. Revista Veja, São Paulo, p. 71-81, maio.
2013.

ECOSSISTEMA HADOOP 29
SCHMARZO, B. Estudo do Analítico do Big Data. Disponível em:
<https://brazil.emc.com/collateral/emc-perspective/h8668-ep-cloud-big-data-
analytics.pdf>. Acesso em 05 maio 2017

SCHNEIDER, R. D. Hadoop for dummies. Special edition. Mississauga: John Wiley &
Sons, 2012.

SCHÖNBERGER, V. M.; CUKIER, K. Big Data: a revolution that Will transform how we
live, work and think. Kindle edition. New York: Houghton Mifflin Harcourt Publ. Co.,
2013.

TAURION, Cezar. Artigo disponível em:


<www.revistas.usp.br/signosdoconsumo/article/download/.../100022>. Acesso em
2014.

TAURION, Cezar. Cezar Taurion ensina o que é Big Data. Disponível em:
<blog.corujadeti.com.br/cezar-taurion-ensina-o-que-e-big-data>. Acesso em 05 maio
2017.

UK.CAPGEMINI.COM. The Deciding Factor: Big data and decision-making. London,


Economist Intelligence Unit. 2012. Disponível em:
<https://www.uk.capgemini.com/resource-file-
access/resource/pdf/The_Deciding_Factor__Big_Data___Decision_Making.pdf>.
Acesso em 05 maio 2017.

WEISS, S. M.; INDURKHYA, N.; ZHANG, T. et al. Text mining. Predictive methods for
analyzing unstructured information. New York: Springer, 2005.

ZUPPO, D.; COSTA, L.; FERNANDES, S. Big Data: desafios e análise estratégica. Rio
de Janeiro: COPPE UFRJ, 2013.

ECOSSISTEMA HADOOP 30

Das könnte Ihnen auch gefallen