Willkommen bei Scribd!

Karussell überspringen

Slides - A Configurable Cloud-Scale DNN Processor For Real-Time AI

Hochgeladen von

Iago

0% fanden dieses Dokument nützlich (0 Abstimmungen)

8 Ansichten19 Seiten

Presentation about a configurable Cloud-Scale DNN Processor for Real-Time AI

Originaltitel

Slides - A Configurable Cloud-Scale DNN Processor for Real-Time AI

Copyright

Verfügbare Formate

PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

Presentation about a configurable Cloud-Scale DNN Processor for Real-Time AI

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

0% fanden dieses Dokument nützlich (0 Abstimmungen)

8 Ansichten19 Seiten

Slides - A Configurable Cloud-Scale DNN Processor For Real-Time AI

Hochgeladen von

Iago

Presentation about a configurable Cloud-Scale DNN Processor for Real-Time AI

Copyright:

Verfügbare Formate

Als PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 19

Im Dokument suchen

A Configurable Cloud-Scale

DNN Processor for

Real-Time AI

Fowers et al
Los Langeles, CA, USA
23 Julho 2018
Iago Corrêa e Matheus Gongalves
22 Outubro 2018
Introdução
❏ Estado da arte em inteligência artificial tomado por modelos de Deep
Neural Networks (DNN), com cada vez maior uso em aplicações
interativas ao vivo
❏ Carros autônomos
❏ Reconhecimento de imagem
❏ Reconhecimento de fala
❏ Propagandas
Introdução
❏ Necessidade de baixa latência e pequeno tamanho de batch
❏ Experiência suave para o usuário
❏ Cumprir legislação (SLA)
❏ Atingir requisitos de segurança

❏ GPUs atingem grande throughput explorando uso de batches maiores

❏ Paralelismo interno e entre as solicitações

❏ Unidades de processamento neural (NPU) também começam a ganhar

espaço
Problema

Obter uma solução capaz de comportar de forma

flexível vários tipos de modelos DNN com baixa
latência explorando o máximo possível do
paralelismo de solicitações individuais em
aplicações de tempo real em nuvem.
Solução
Projeto Brainwave - sistema em escala de produção para AI em tempo real
Solução
Arquitetura

❏ Uso de single-thread com método SIMD

❏ Foco na operação-chave de multiplicação vetor-matriz
❏ Tipos de dados independentes
❏ Instruções encadeadas

Memória: Peso do modelo DNN inserido em chips

Sistema: Conexão direta à rede da central de dados

Solução
Solução
Microarquitetura: Explorar paralelismo por pedido

❏ Mapear e executar correntes ininterruptas de operações

❏ 3 Aspectos-chave

❏ Multiplicador de Matriz-Vetor (MVM): 4 níveis de paralelismo

❏ Unidades de Multifunção Vetorial (MFU): Funções (ReLU, sigmoid, and tanh)

❏ Envio e Decodificação Hierárquico (HDD): Expansão de operações

Solução
Solução
Especialização de Síntese

❏ Totalmente parametrizável

❏ Tipo de dado (Precisão)

❏ Tamanho nativo de vetor

❏ Número de tiles do MVM

❏ Número de lanes do tile

❏ Número de MFUs

❏ Número de DPEs
Solução
Resultados
❏ Implementação com FPGA
❏ Três gerações de modelos de FPGA da Intel
❏ Stratix V D5 (BW_S5)
❏ Arria 10 1150 (BW_A10)
❏ Stratix 10 280 (BW_S10)
❏ Parâmetros da NPU acomodados de forma a melhor aproveitar os recursos do FPGA em
análise

Parâmetros Ajustáveis Utilização dos Recursos

NPU MV Tiles Lanes Native Dim. MRF Size MFUs ALMs M20Ks DSPs Freq. Peak TFLOPS

BW_S5 6 10 100 306 2 87% 59% 66% 200 2.4

BW_A10 8 16 128 512 2 51% 80% 100% 300 9.8

BW_S10 6 40 400 306 2 91% 69% 91% 250 48

Resultados
❏ RNN Performance
❏ Stratix 10 280 (BW_S10)
❏ DeepBench
❏ Comparação com resultados publicados usando uma NVIDIA Titan Xp
❏ Comparação com SDM
❏ Sem batch (batch_size = 1)
❏ Menor latência nas requisições do servidor, processar assim que o pedido chega
Resultados
Resultados
Resultados
Resultados
❏ CNN Performance
❏ Arria 10 1150
❏ ResNet-50
❏ Sem batch (batch_size = 1)
❏ Menor latência nas requisições do servidor, processar assim que o pedido chega

NVIDIA P40 BW_CNN_A10

IPS 461 559

Latency 2.17 ms 1.8 ms

Conclusão
❏ Aplicação de várias técnicas para atingir alto throughput e baixa latência
para IA em tempo real sem batches
❏ Sistema fixado em um chip que extrai paralelismo de instruções SIMD em
uma única thread de controle
❏ Algumas instruções geram milhares de operações independentes com tamanho de vetor
fixo operando em paralelo e explorando o fluxo direto dos dados
❏ Parametrização que permite encaixar diferentes tipos de modelos

❏ Maior utilização e menor latência que GPUs de alta performance

Referências

J. Fowers et al., A Configurable Cloud-Scale DNN Processor for Real-Time

AI, 2018 ACM/IEEE 45th Annual International Symposium on Computer
Architecture (ISCA), Los Angeles, CA, 2018, pp. 1-14.

Das könnte Ihnen auch gefallen

Atividade 10
Dokument29 Seiten
Atividade 10
LuisAlmeida
100% (1)
Poo Aula03 Padroes Grasp Unifal
Dokument62 Seiten
Poo Aula03 Padroes Grasp Unifal
Francisco J Nogueira
0% (1)
Exercícios de Linguagem C
Dokument8 Seiten
Exercícios de Linguagem C
Augusto Rodrigues
Noch keine Bewertungen
Aula 13 Processamento de Dados Na Ucp
Dokument20 Seiten
Aula 13 Processamento de Dados Na Ucp
Ermerson Moraes
Noch keine Bewertungen
SQL Injection
Dokument12 Seiten
SQL Injection
Regina Johnson
Noch keine Bewertungen
Aulas 1 e 2 - Teoria Dos Grafos - 2014 PDF
Dokument35 Seiten
Aulas 1 e 2 - Teoria Dos Grafos - 2014 PDF
Victor Eduardo
Noch keine Bewertungen
ApostilaTec II C
Dokument136 Seiten
ApostilaTec II C
Fabiano da Silva
Noch keine Bewertungen
Ementas Curso Tecnico em Redes de Computadores
Dokument4 Seiten
Ementas Curso Tecnico em Redes de Computadores
ItaloSouza
Noch keine Bewertungen
Guia Do Usuario Linha Wellon VP BR
Dokument71 Seiten
Guia Do Usuario Linha Wellon VP BR
Fábio
Noch keine Bewertungen
Trabalho Sobre VPN
Dokument15 Seiten
Trabalho Sobre VPN
ONADROJ
100% (1)
Dominando Progress
Dokument302 Seiten
Dominando Progress
Ariosto Leal
Noch keine Bewertungen
Rotina de Backup Da Prodeb
Dokument2 Seiten
Rotina de Backup Da Prodeb
Carlos Henrique Barroso
Noch keine Bewertungen
Telegram e WPP
Dokument23 Seiten
Telegram e WPP
Felipe Amaral
Noch keine Bewertungen
Lista1 Odt
Dokument2 Seiten
Lista1 Odt
real bas
100% (1)
Algoritmos e Programação
Dokument29 Seiten
Algoritmos e Programação
marceloguerra
Noch keine Bewertungen
Apostila de Eletropneumática Com CLP - SENAI
Dokument65 Seiten
Apostila de Eletropneumática Com CLP - SENAI
Thaty Granger
50% (2)
Primeira Avaliacao de Aprendizagem - Gabarito
Dokument3 Seiten
Primeira Avaliacao de Aprendizagem - Gabarito
Oliver Oliveira
Noch keine Bewertungen
Livro Proprietario - Arquitetura de Sistemas PDF
Dokument145 Seiten
Livro Proprietario - Arquitetura de Sistemas PDF
edson santos
100% (4)
Utilizando Hints Oracle
Dokument7 Seiten
Utilizando Hints Oracle
carloscardoso79
Noch keine Bewertungen
Recuperar Probox 530 Lite - Set STB Memory Error
Dokument12 Seiten
Recuperar Probox 530 Lite - Set STB Memory Error
Henrique Alcantara E Silva
Noch keine Bewertungen
Checklist Atual - ATUAL REVISÃO 05 - CL RADIO - AOD - AOD2
Dokument4 Seiten
Checklist Atual - ATUAL REVISÃO 05 - CL RADIO - AOD - AOD2
Rodrigo Tozzi
Noch keine Bewertungen
Bomba Lógica
Dokument5 Seiten
Bomba Lógica
Artur Borges
Noch keine Bewertungen
Aula 2 - Método Da Bissecção
Dokument4 Seiten
Aula 2 - Método Da Bissecção
Allan Sousa Soares
Noch keine Bewertungen
Apostila K19-Orientação A Objeto em Java PDF
Dokument243 Seiten
Apostila K19-Orientação A Objeto em Java PDF
Italo Pereira Guimaraes
Noch keine Bewertungen
Estacio Modelagem de Dados
Dokument4 Seiten
Estacio Modelagem de Dados
Hector Nigro
Noch keine Bewertungen
Lista de Exercicios IA
Dokument3 Seiten
Lista de Exercicios IA
Robson Aguiar
Noch keine Bewertungen
Aula13 14 Triggers e Procedimentos Armazenados
Dokument25 Seiten
Aula13 14 Triggers e Procedimentos Armazenados
Lizianne Priscila Souto
Noch keine Bewertungen
Aula - 13 Agregação X Composição
Dokument7 Seiten
Aula - 13 Agregação X Composição
Francisco Júnior
Noch keine Bewertungen
Passo A Passo - SU10 V2
Dokument3 Seiten
Passo A Passo - SU10 V2
Rafael Rib
Noch keine Bewertungen
Trincas e Fissuras em Edificações: causadas por recalques diferenciais
Von Everand
Trincas e Fissuras em Edificações: causadas por recalques diferenciais
Marcos Davi Soares Alcantara
Noch keine Bewertungen
Inteligência artificial: O guia completo para iniciantes sobre o futuro da IA
Von Everand
Inteligência artificial: O guia completo para iniciantes sobre o futuro da IA
John Adamssen
Bewertung: 5 von 5 Sternen
5/5 (6)
Trading online de uma forma simples: Como aprender o comércio em linha e descobrir as bases para uma negociação bem sucedida
Von Everand
Trading online de uma forma simples: Como aprender o comércio em linha e descobrir as bases para uma negociação bem sucedida
Stefano Calicchio
Bewertung: 5 von 5 Sternen
5/5 (1)
Blockchain Ethereum: Fundamentos de arquitetura, desenvolvimento de contratos e aplicações
Von Everand
Blockchain Ethereum: Fundamentos de arquitetura, desenvolvimento de contratos e aplicações
João Kuntz
Noch keine Bewertungen
Gestão Na Tecnologia Da Informação
Von Everand
Gestão Na Tecnologia Da Informação
Oscar Dalfovo & Arquelau Pasta
Noch keine Bewertungen
Resistência dos materiais
Von Everand
Resistência dos materiais
José Sergio Komatsu
Noch keine Bewertungen
Enviesados
Von Everand
Enviesados
Rian Dutra
Bewertung: 5 von 5 Sternen
5/5 (10)
Climatização Automotiva Para Leigos
Von Everand
Climatização Automotiva Para Leigos
Marcelo De Souza Marques
Noch keine Bewertungen
Modelos De Laudos Para Avaliação De Imóveis Urbanos E Rurais
Von Everand
Modelos De Laudos Para Avaliação De Imóveis Urbanos E Rurais
Luiz Antonio Sgarabotto
Noch keine Bewertungen
Inteligência artificial: Como aprendizado de máquina, robótica e automação moldaram nossa sociedade
Von Everand
Inteligência artificial: Como aprendizado de máquina, robótica e automação moldaram nossa sociedade
John Adamssen
Bewertung: 5 von 5 Sternen
5/5 (3)
Introdução Às Redes De Computadores: Modelos Osi E Tcp/ip
Von Everand
Introdução Às Redes De Computadores: Modelos Osi E Tcp/ip
Ademar Felipe Fey E Raul Ricardo Gauer
Noch keine Bewertungen
Liberdade digital: O mais completo manual para empreender na internet e ter resultados
Von Everand
Liberdade digital: O mais completo manual para empreender na internet e ter resultados
Hyeser Souza
Bewertung: 5 von 5 Sternen
5/5 (10)
Python e mercado financeiro: Programação para estudantes, investidores e analistas
Von Everand
Python e mercado financeiro: Programação para estudantes, investidores e analistas
Marco Antonio Leonel Caetano
Bewertung: 5 von 5 Sternen
5/5 (3)
Descomplicando Passo A Passo Deep Web
Von Everand
Descomplicando Passo A Passo Deep Web
Nildo Mello
Bewertung: 5 von 5 Sternen
5/5 (1)