Sie sind auf Seite 1von 17

Just cant get enough Synthesizing Big Data

Bancos de Dados Distribudos

Lucas D. Fernandes
Rodrigo N. Laigner

Autores

Hans-Arno Jacobsen, University of Toronto Canada


Manuel Danisch, bankmark UG
Michael Frank, bankmark UG
Sebastian Schindler, bankmark UG
Tilmann Rabl, University of Toronto Canada

Sumrio

Introduo
Geradores de dados
DBSynth
PDGF
Arquitetura do DBSynth
Avaliao
Demonstrao
Trabalho futuro

Introduo

Armazenamento de transaes
Anlise mais detalhada de interaes do usurio
Ferramentas de teste e benchmarking
Privacidade de dados

Geradores de Dados

Gerao de dados um tedioso processo


Dados realistas = vantagem
Desenvolvimento de mltiplos geradores de dados
Geradores de dados customizados
Soluo simples: dados realistas baseados apenas em
meta dados

DBSynth

Soluo para gerao de dados


Informao do Schema e amostragem
Atuao em grandes e complexos BDs
Extenso do PDGF

PDGF

Sute de gerao de dados genricos


Modelos criados pelo DBSynth
o Criao de dados sintticos, grandes e realistas

Vantagens:
o
o
o
o
o

Rapidez
Eficincia
Flexibilidade (ambientes multi-core e multi-node)
Escrita de dados em formato JSON, SQL e XML
Arquivos, sistemas de banco de dados e modernos sistemas de armazenamento big data

PDGF

Gerao de dados de forma paralela e repetvel


Seeding strategy nmeros randmicos (funes hash)

Figura 1. Seeding Strategy


8

Arquitetura

PDGF

Figura 2. Arquitetura do PDGF


9

DBSYNTH

Extrao de informao do modelos de dados de um


banco de dados existente
Recursos:
o Busca de palavras chave no schema, aplicando assim regras de gerao predefinidas ao
modelo de dados
o Ex.: Colunas numricas com key ou id sero geradas com um ID generator
o Usurio pode expecificar a quantidade da amostra de dados e a estratgia de
amostragem
o Suporte aos 92 tipos de dados SQL

10

DBSYNTH

Arquitetura abstrata e modo de operao

Figura 3. Arquitetura do DBSynth


11

Dados Gerados

Exemplo de configurao automaticamente gerada

Figura 4. Parte de definio do esquema


12

Avaliao
24 ns, socket duplo, cluster dual core e um nico n com dois sockets e oito
ncleos por socket
Experimento 1

Grfico 1. PDGF performance


scale-out

Experimento 2

Grfico 2. PDGF TPC-H


performance scale-up

13

Avaliao
Experimento final
o
o
o
o
o
o
o

Extrao de metadados
Uando um banco de dados TPC-H
Carregado em um banco de dados PostgreSQL
600 ms to conseguir a informao do esquema
1.3 segundos para conseguir o tamanho das tabelas
600 ms para conseguir as probabilidades NULL
10 segundos para carregar todas as constantes min e max

Resultados:
o Tempo de resposta interativo para a gerao do modelo de dados
o PDGF: modelos de dados podem ser construdos e melhorados rapidamente

14

Demonstrao

Janela de exemplo para gerao de dados

Figura 5. Janela DBSynth

15

Trabalho Futuro
Extender DBSynth para automaticamente completar o processo de
benchmark
Incluso de anlise de consultas ao conjunto de dados gerados
Gerao de resultados de verificao para as consultas em um dado modelo
de dados
Amostragem dinmica

16

Perguntas?

17

Das könnte Ihnen auch gefallen