Sie sind auf Seite 1von 33

Big data, estratégias de

recuperação da informação e
machine learning
Luís Roberto Albano Bueno da Silva
BIG DATA
Big data pode ser entendida como a condição em que um
determinado conjunto de dados necessita de tratamento especial
dado seu volume e complexidade, variedade, e necessidade de
recuperação em tempo ágil, a fim de agregar valor e
conhecimento ao usuário ou organização, de forma simples e
apresentável.
Volume

Visualização Velocidade

7V’s do
Big Data
Variabilidade Valor

Variedade Veracidade

Fonte: Elaborado pelo autor.


volume

Bit 0/1 – Dados Binários


Nibble 4 Bits
Byte 8 Bits (1 caractere)
Kilobyte (KB) 1024 Bytes (3 parágrafos de texto)
Megabyte (MB) 1024 Kilobytes (4 livros de 200 páginas)
Gigabyte (GB) 1024 Megabytes (4500 livros de 200 páginas)
Terabyte (TB) 1024 Gigabytes (350000 de fotos)
Petabyte (PB) 1024 Terabytes (4 bilhões de livros / 600 milhões de sites)
Exabyte (EB) 1024 Petabytes (4 trilhões de livros / 300 bilhões de fotos)
Zettabyte (ZB) 1024 Exabytes (500 trilhões de documentos em geral)
BIG DATA Yottabyte (YB) 1024 Zettabytes (1 sectilhão de documentos em geral)

Fonte: Elaborado pelo autor.


variedade

METADADOS,
XML
(IDEALMENTE)

Fonte: Elaborado pelo autor.


VELOCIDADE

Fonte: https://twitter.com/lorilewis
VELOCIDADE

Fonte: https://www.triscal.com.br/2015/10/base-unica-de-clientes-crm-mdm/
variabilidade

Mais distante da média

Fonte: https://mundopd.wordpress.com/2009/04/15/pesquisa-do-ibge-mapeira-a-fome-no-brasil/
visualização

Fonte: Elaborado pelo autor.


visualização

Fonte: Elaborado pelo autor.


Valor e veracidade

Fonte: https://powerbi.microsoft.com/pt-br/
Valor e veracidade

Fonte: https://www.forbes.com/sites/cartoonoftheday/2018/03/25/how-cambridge-analytica-used-big-sleaze-to-mine-big-data-facebook-zuckerberg/#281f01c4411f
BIG DATA
§ Recuperar informação em dados do tipo Big Data envolve
processos mais complexos do que sistemas baseados em
busca por palavras-chave, muitas vezes envolvendo
inteligência artificial e sistemas de bancos de dados não
relacionais;
Organização dos dados

Nosql

sql

Fonte: Acervo do autor.


Machine learning
Organização dos dados

Fonte: https://www.scylladb.com/resources/nosql-vs-sql/
Machine learning
§ Machine learning é o termo utilizado para definir sistemas de
inteligência artificial que “aprendem” para tomada de decisões
futuras. Podem ser utilizados para agrupar, separar, organizar e
apresentar dados não estruturados de forma a dar sentido aos
mesmos;
§ Os métodos de machine learning são os mais utilizados, em
especial as árvores de decisão e as redes neurais.
ÁRVORES DE DECISÃO

§ Árvores de decisão são sistemas de aprendizado


supervisionado que podem ser treinados para classificar e
organizar dados para que sejam apresentados e organizados
de forma a gerar algum tipo de informação;
§ O treinamento é feito de forma prévia com dados de controle a
fim de possibilitar o seu uso em dados não previamente
testados, mas similares;
ÁRVORES DE DECISÃO

Fonte: https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
Árvores de classificação (variáveis categóricas)

Jogam tênis?

Fonte: https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
Árvores de classificação (variáveis categóricas)

Quem sobreviveu?

Fonte: Elaborado pelo autor.


Redes neurais artificiais
Sinapses
Nodo
(função de disparo)
Nodo
Pesos (função de disparo)
Entrada 1

Entrada 2 Saídas

Entrada 3
Pesos
CHIHUAHUA MUFFIN
Redes neurais artificiais de aprendizagem por reforço

SAÍDA

E1
SIM/NÃO
SAÍDA
E2 RN-AR TUTOR
E3

AJUSTE DE PESOS

ALGORÍTMO DE
APRENDIZADO
Recuperação da informação (Kdt e KDD)

§ “Descobrir conhecimento significa identificar, receber informações relevantes, e poder


processá-las e agregá-las ao conhecimento prévio de seu usuário, mudando o estado de
seu conhecimento atual, a fim de que determinada situação ou problema possa ser
resolvido. Neste sentido, observa-se que a o processo de descoberta de conhecimento
está fortemente relacionado à forma pela qual a informação é processada.” (MORAIS;
AMBRÓSIO, 2005, p.2);
§ Normalmente a descoberta de conhecimento em dados estruturados é chamada KDD
(Knowledge Discovery in Databases) e a descoberta em dados não estruturados -
normalmente em textos -, é chamada de KDT (Knowledge Discovery from Text). Ambas
têm processos específicos de trabalho, dependente do modo como os dados estão
organizados. Textos com encoding definido e armazenados em padrão SGML podem
produzir resultados mais completos e interessantes, dependendo do caso.
KDD (Knowledge Discovery in databases)
§ No KDD os dados estão organizados em um banco de dados, armazenados
de modo a possibilitar a identificação de relacionamentos entre palavras ou
conjunto de palavras. Nesse sentido, como se trata de busca em banco de
dados, os dados não necessariamente estão armazenados em forma de
texto, por vezes organizados em tabulações, listas ou tuplas. As relações
existentes são normalmente comparativas, onde identifica-se o aparecimento
de determinados dados em determinados conjuntos em um determinado
número de vezes;
§ O método de descoberta de conhecimento KDD envolve Data Mining
(Mineração de Dados), onde os dados são escolhidos, limpos, organizados e
apresentados de forma a construir a informação e o conhecimento.
KDD (Knowledge Discovery in databases)

Preparação dos
Identificação do Dados Mineração de Pós
Problema Dados Processamento
(Banco de Dados)

Fonte: Elaborado pelo autor.


KDT (Knowledge Discovery in TEXTS)
§ A extração de conhecimento de textos é o processo de construir a informação e utilizá-la a partir de
dados não estruturados em textos, considerando não somente o levantamento quantitativo de
palavras mas também associação de palavras, semântica, contexto dentro de uma base de
linguagem natural;
§ “As principais contribuiçoe
̃ s desta área estão relacionadas à busca de informaçoe
̃ s específicas em
documentos, à análise qualitativa e quantitativa de grandes volumes de textos, e à melhor
compreensão de textos disponíveis em documentos. Textos estes que podem estar representados
das mais diversas formas, dentre elas: e-mails; arquivos em diferentes formatos (pdf, doc, txt, por
exemplo); páginas Web; campos textuais em bancos de dados; textos eletrônicos digitalizados a
partir de papéis.” (MORAIS; AMBRÓSIO, 2005, p.6);
§ Textos com metadados alocados internamente, especialmente os que com estrutura XML, ou
páginas web, que possuem a tecnologia HTML, potencializam a capacidade de gerar relações
entre documentos e seu texto interno, pois são mais facilmente indexáveis;
KDT (Knowledge Discovery in TEXTS)

Primeiras iterações
Análise Cálculo de
Preparação
Seleção • Análise estatística dos Dados Indexação e relevância Seleção Análise dos
dos Textos e(ou) Normalização dos dos Termos Resultados
• Análise Semântica (Manual) Termos

Iterações Futuras
Análise
Preparação Indexação e Cálculo de Seleção Análise
Seleção • Análise estatística dos Dados relevância
dos Textos e(ou) Normalizaçã dos dos dos
• Análise Semântica (Automático) o Termos Termos Resultados

Fonte: Elaborado pelo autor.


Problemas na recuperação da informação
(ingwersen, 2005)
§ Carência do usuário e das tarefas;
§ Carência de interação e requisições dinâmicas;
§ Carência de variabilidade tática;
§ Carência da expectativa de incerteza;
§ Carência de relevância orientada ao usuário;
§ Carência de variedade dos bancos de dados;
§ Premissa de independência documental e negligência de sobreposição documental;
§ Insuficiência de recordação para precisão;
§ Excesso de média nas buscas;
§ Apenas recuperação documental.
referências

ARTERO, Almir Olivette. Inteligência Artificial: Teórica e Prática. São Paulo: Livraria da
Física, 2009.
DOMINGUE, John; LANZONI, Mattia; MOTTA, Enrico; SHUM, Simon Buckingham; VARGAS-
VERA, Maria. Knowledge Extraction by using an Ontology-based Annotation Tool.
Disponível em: <
https://www.researchgate.net/publication/228801195_Knowledge_Extraction_by_using_an_Ont
ology-based_Annotation_Tool.>. Acesso em: 10 abr. 2019.
INGWERSEN, Peter. The Turn: Integration of Information Seeking and Retrieval in Context:
Dordrecht: Springer, 2005.
MORAIS, Edison; AMBRÓSIO, Ana Paula. Mineração de Textos. Goiás: Instituto de
Informática Universidade Federal de Goiás, 2007.
WILCOCK, Graham. Introduction to Linguistic Annotation and Text Analytics. Morgan &
Claypool: Williston, 2009.