Ac 10 DLP 2013

Arquitetura de Computadores
Exploração de ILP
Prof. Denis Franco
denisfranco@furg.br
Junho 2013
Universidade Federal do Rio Grande

Centro de Ciências Computacionais
Programa de Pós-Graduação em Computação
Mestrado em Engenharia de Computação
Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 1 / 71

Outline
1 Introdução
2 Exploração de ILP via SW
3 Exploração de ILP via HW
4 Despacho múltiplo
Introdução
VLIW
Processadores superescalares
Limites de ILP

Introdução
Outline
1 Introdução
Introdução
VLIW
Limites de ILP

Introdução
Instruction Level Parallelism

Introdução

Abordagens principais para exploração de ILP:
Baseada em HW
Baseada em SW

Introdução

Baseada em HW
Exploração dinâmica do paralelismo
Baseada em SW
Exploração estática do paralelismo

Introdução

Baseada em HW
Baseada em SW
Desktops e servidores
Exploração dinâmica

Introdução

Baseada em HW
Baseada em SW
PMDs
O objetivo é operação low power
Paralelismo é explorado em nı́veis mais baixos da arquitetura
Exploração estática é mais utilizada
ARM Cortex-A8

Introdução

Baseada em HW
Baseada em SW
PMDs
O objetivo é operação low power
Paralelismo é explorado em nı́veis mais baixos da arquitetura
Exploração estática é mais utilizada
ARM Cortex-A8
Exploração dinâmica em processadores mais recentes
ARM Cortex-A9
Introdução
O paralelismo existente em um bloco básico é restrito

Bloco básico: sequência de instruções sem desvios intermediários
No MIPS
15% a 25% das operações são desvios
De 3 até 6 instruções são executadas entre desvios
Instruções provavelmente dependentes entre si
Para melhor desempenho, exploração de paralelismo entre múltiplos
blocos básicos
Loop-level parallelism

Introdução


Introdução

Exemplo:
for (i=0; i<=999; i=i+1)
x[i] = x[i] + y[i];

Introdução

Exemplo:
for (i=0; i<=999; i=i+1)
x[i] = x[i] + y[i];
Cada iteração do laço é independente da anterior:

x[0] = x[0] + y[0];
x[1] = x[1] + y[1];
x[2] = x[2] + y[2];
...

Introdução

Exemplo:
for (i=0; i<=999; i=i+1)
x[i] = x[i] + y[i];
Cada iteração do laço é independente da anterior:

x[0] = x[0] + y[0];
x[1] = x[1] + y[1];
x[2] = x[2] + y[2];
...
Exploração de loop-unrolling.
Técnicas para transformação de loop-level parallelism → ILP
Via SW, via HW, ou SW+HW
Introdução

Dependências de dados e hazards
Instruções sem dependências

Execução em paralelo
Instruções com dependências
Execução sequencial ou sobreposta

Introdução

Dependências de dados e hazards
Instruções sem dependências

Execução em paralelo
Instruções com dependências
Execução sequencial ou sobreposta
Capacidade fundamental (SW e/ou HW): detecção das dependências.
Dependências: propriedade dos programas
Detecção de hazards e geração de stalls: propriedade do pipeline

Introdução

Dependências de dados
Dependências reais
Dependências de nome

Introdução

Dependências reais: a instrução j é dependente da instrução i se:

Introdução


A instrução i gera um resultado que é utilizado pela instrução j
Exemplo:
LOOP: L.D F0, 0(R1)
ADD.D F4, F0, F2
S.D F4, 0(R1)
DADDUI R1, R1, #-8
BNE R1, R2, LOOP

Introdução


A instrução i gera um resultado que é utilizado pela instrução j
Exemplo:
LOOP: L.D F0,
ADD.D F4, F0
S.D F4,
DADDUI R1,
BNE R1,

Introdução

Gerenciando dependências reais

Introdução


Manter a dependência e evitar o hazard

Introdução


Eliminar a dependência através da modificação do código

Introdução


Detectando dependências reais

Introdução


Em registradores: trivial

Introdução


Em registradores: trivial
Em memória: complexo → 100(R2) = 20(R4)?

Introdução

Quando duas instruções utilizam o mesmo nome de registrador, sem
fluxo de dados entre as mesmas

Introdução

Antidependências
Dependências de saı́da

Introdução

Antidependências
Eliminadas por renomeação de registradores

Introdução

Hazards de dados
Detecção e tratamento de hazards preserva a ordem original dos

programas

Introdução

Hazards de dados

programas
De acordo com a ordem de escritas e leituras:

Introdução

Hazards de dados

programas
Read after write - RAW

Introdução

Hazards de dados

programas
Write after write - WAW

Introdução

Hazards de dados

programas
Write after write - WAW
Write after read - WAR
Antidependências

Introdução

Dependências de controle
A maioria das instruções é dependente de desvios

Control dependent
Exemplo:
if p1 {
S1;
};
if p2 {
S2;
};

Introdução

A maioria das instruções é dependente de desvios

Control dependent
Exemplo:
if p1 {
S1;
};
if p2 {
S2;
};
S1 é control dependent de p1;

S2 é control dependent de p2;

Introdução

O gerenciamento de dependências de controle deve preservar:

o comportamento de exceções
o fluxo de dados
Exemplos:
DADDU R2, R3, R4
BEQZ R2, L1
LW R1, 0(R2)
L1:
DADDU R1, R2, R3

BEQZ R4, L
DSUBU R1, R5, R6
L: ...
OR R7, R1, R8

Exploração de ILP via SW
Outline
1 Introdução
Introdução
VLIW
Limites de ILP

Escalonamento estático
Organização do código com instruções independentes

Instruções dependentes devem ser separadas entre si por vários ciclos
Depende do paralelismo disponı́vel na aplicação
Depende da microarquitetura do processador
Considerar:
Latência de um load de inteiro e branch = 1 ciclo
Latência de aritmética de inteiros = 0 ciclos
Pipeline de 5 estágios


Código de referência:
for (i=999; i>=0; i=i-1)
x[i] = x[i] + s;
Em assembly MIPS:
Loop: L.D F0, 0(R1)

ADD.D F4, F0, F2
S.D F4, 0(R1)
DADDUI R1, R1, #-8
BNE R1, R2, Loop


No pipeline do MIPS: sem escalonamento

Ciclo
Loop: L.D F0, 0(R1) 1
stall 2
ADD.D F4, F0, F2 3
stall 4
stall 5
S.D F4, 0(R1) 6
DADDUI R1, R1, #-8 7
stall 8
BNE R1, R2, Loop 9

No pipeline do MIPS: com escalonamento

Ciclo
Loop: L.D F0, 0(R1) 1
DADDUI R1, R1, #-8 2
ADD.D F4, F0, F2 3
stall 4
stall 5
S.D F4, 8(R1) 6
BNE R1, R2, Loop 7



9 ciclos por elemento da matriz


3 ciclos de operação
2 ciclos de controle do laço (loop overhead)
4 ciclos de parada


4 ciclos de parada


4 ciclos de parada
2 ciclos de controle do laço
2 ciclos de parada

Loop unrolling
Replicação do corpo do laço e ajuste do controle do mesmo.

Loop unrolling

Loop: L.D F0, 0(R1)
ADD.D F4, F0, F2
S.D F4, 0(R1) ;eliminaç~
ao de DADDUI e BNE
L.D F6, -8(R1)
ADD.D F8, F6, F2
S.D F8, -8(R1) ;eliminaç~
ao de DADDUI e BNE
L.D F10, -16(R1)
ADD.D F12, F10, F2
ao de DADDUI e BNE
L.D F14, -24(R1)
ADD.D F16, F14, F2
S.D F16, -24(R1)
DADDUI R1, R1, #-32
BNE R1, R2, Loop

Loop unrolling

Loop: L.D F0, 0(R1)
ADD.D F4, F0, F2
S.D F4, 0(R1) ;eliminaç~
ao de DADDUI e BNE
L.D F6, -8(R1)
ADD.D F8, F6, F2
ao de DADDUI e BNE
L.D F10, -16(R1)
ADD.D F12, F10, F2
ao de DADDUI e BNE
L.D F14, -24(R1)
ADD.D F16, F14, F2
S.D F16, -24(R1)
DADDUI R1, R1, #-32
BNE R1, R2, Loop
Otimização baseada em substituição simbólica e simplificação: não trivial

Loop unrolling
Desempenho obtido: 27 ciclos.
Loop: L.D F0, 0(R1)
stall
ADD.D F4, F0, F2
stall
stall
S.D F4, 0(R1)
L.D F6, -8(R1)
stall
ADD.D F8, F6, F2
stall
stall
S.D F8, -8(R1)
...
S.D F16, -24(R1)
DADDUI R1, R1, #-32
stall
BNE R1, R2, Loop

Loop unrolling
Desempenho obtido: 27 ciclos.
Loop: L.D F0, 0(R1)
stall
ADD.D F4, F0, F2
stall
stall
S.D F4, 0(R1)
L.D F6, -8(R1)
stall
ADD.D F8, F6, F2
stall
stall
S.D F8, -8(R1)
...
S.D F16, -24(R1)
DADDUI R1, R1, #-32
stall
BNE R1, R2, Loop
6.75 ciclos para cada 4 elementos...

Loop unrolling
Com escalonamento estático:

Loop: L.D F0, 0(R1)
L.D F6, -8(R1)
L.D F10, -16(R1)
L.D F14, -24(R1)
ADD.D F4, F0, F2
ADD.D F8, F6, F2
ADD.D F12, F10, F2
ADD.D F16, F14, F2
S.D F4, 0(R1)
S.D F8, -8(R1)
DADDUI R1, R1, #-32
S.D F12, 16(R1)
S.D F16, 8(R1)
BNE R1, R2, Loop

Loop unrolling
Com escalonamento estático:

Loop: L.D F0, 0(R1)
L.D F6, -8(R1)
L.D F10, -16(R1)
L.D F14, -24(R1)
ADD.D F4, F0, F2
ADD.D F8, F6, F2
ADD.D F12, F10, F2
ADD.D F16, F14, F2
S.D F4, 0(R1)
S.D F8, -8(R1)
DADDUI R1, R1, #-32
S.D F12, 16(R1)
S.D F16, 8(R1)
BNE R1, R2, Loop
3.5 ciclos para cada 4 elementos.

Loop unrolling
Decisões e transformações:
Determinar se as iterações são independentes
Escalonar dos registradores disponı́veis
Eliminar os testes intermediários e de final de laço
Determinar se os acessos à memória são independentes
Escalonar o código obtido

Loop unrolling
Limitações:

Loop unrolling
Limitações:
Redução no ganho com o controle de laço

Loop unrolling
Limitações:
Aumento do código, com impacto em cache misses

Loop unrolling
Limitações:
Ocupação dos registradores

Loop unrolling
Limitações:
Ocupação dos registradores
Complexidade do compilador

Previsão de desvios
Previsão de desvios avançada
Previsores de correlação:
Previsão baseada no comportamento de vários desvios correlacionados

Exemplo:
if (aa==2)
aa = 0;
if (bb==2)
bb = 0;
if (aa!=bb) {

Exemplo:
if (aa==2)
aa = 0;
if (bb==2)
bb = 0;
if (aa!=bb) {
Previsor (m,n):
Utiliza o comportamento dos m últimos desvios
Caracterizados por previsores de n bits


Previsores tournament:
Previsão baseada em comportamento local e global do desvio
Previsão baseada em múltiplos previsores e a seleção do mais
adequado

Previsores tournament:
Previsão baseada em comportamento local e global do desvio
Previsão baseada em múltiplos previsores e a seleção do mais
adequado

Previsão de desvios no Intel Core i7
Previsor simples de 2 bits

Previsor global
Loop exit predictor

Previsão de desvios no Intel Core i7
Previsor simples de 2 bits

Previsor global
Loop exit predictor

Exploração de ILP via HW
Outline
1 Introdução
Introdução
VLIW
Limites de ILP

Escalonamento dinâmico

Reorganização da ordem de execução do código


Vantagens:


Vantagens:
Permite execução eficiente em diferentes pipelines
Permite gerenciar dependências não detectadas pelo compilador
Permite aproveitar paradas imprevisı́veis, e.g., cache misses


Vantagens:
Desvantagem:


Vantagens:
Desvantagem:
Aumento significativo na complexidade do pipeline

Limitação dos pipelines simples


Despacho e execução na ordem original


A parada de uma instrução bloqueia as instruções seguintes


Múltiplas unidades funcionais podem permanecer ociosas


Múltiplas unidades funcionais podem permanecer ociosas
Exemplo:
DIV.D F0, F2, F4
ADD.D F10, F0, F8
SUB.D F12, F8, F14

Alteração da ordem de execução: subdivisão do estágio ID

1 Verificação de hazards estruturais (Issue)
2 Espera pela resolução de hazards de dados (read operands)
A instrução pode seguir para execução tão logo os dados estejam
disponı́veis
out-of-order execution, out-of-order completion


disponı́veis
Possibilidade de hazards WAW e WAR


disponı́veis
Possibilidade de hazards WAW e WAR
Exemplo:
DIV.D F0, F2, F4
ADD.D F6, F0, F8
SUB.D F8, F10, F14
MUL.D F6, F10, F8

Out-of-order completion
Complica o gerenciamento de exceções

Exceção em uma instrução enquanto posteriores já foram completadas

Exceção em uma instrução posterior enquanto anteriores não foram
completadas

Exceção em uma instrução posterior enquanto anteriores não foram
completadas
Exceções imprecisas x exceções precisas

Distinção entre os momentos que uma instrução

Começa a execução
Completa a execução


Entre os dois: instrução está em execução


Múltiplas instruções em execução ao mesmo tempo
Múltiplas unidades funcionais


Despacho em ordem
Leitura de operandos e execução fora de ordem


Despacho em ordem
Leitura de operandos e execução fora de ordem
Scoreboard
Algoritmo de Tomasulo

O algoritmo de Tomasulo
Robert Tomasulo
Desenvolvido para explorar processamento de ponto flutuante e acessos
à memória
Verifica a disponibilidade de operandos (RAW hazards)
Renomeia registradores (WAW e WAR hazards)

Dependências
Exemplo:
DIV.D F0, F2, F4
ADD.D F6, F0, F8
S.D F6, 0(R1)
SUB.D F8, F10, F14
MUL.D F6, F10, F8

Exemplo:
DIV.D F0,
ADD.D F6, F0
S.D F6,
SUB.D F8,
MUL.D , F8

Antidependências
Exemplo:
ADD.D , F8
S.D F6,
SUB.D F8,
MUL.D F6,

Exemplo:
ADD.D F6,
MUL.D F6,

Renomeação de registradores
Exemplo:
DIV.D F0, F2, F4
ADD.D F6, F0, F8
S.D F6, 0(R1)
SUB.D F8, F10, F14
MUL.D F6, F10, F8

Exemplo:
DIV.D F0, F2, F4
ADD.D S, F0, F8
S.D S, 0(R1)
SUB.D T, F10, F14
MUL.D F6, F10, T

Baseia-se na utilização de registradores rascunho

Demanda renomeação de todas as referências posteriores
Inclusive através de desvios
No algoritmo de Tomasulo
Estações de reserva
Armazenamento em buffers dos operandos das instruções em espera
As referências a registradores são substituı́das por referências aos
buffers
Os operandos são obtidos tão logo uma unidade funcional os produza
Mais registradores que os reais da arquitetura

Estrutura básica de um pipeline do tipo Tomasulo

Operação básica de um pipeline do tipo Tomasulo
As instruções são enviadas para uma fila (FIFO)

As estações de reserva incluem as operações e os operandos e
informações para gerência de hazards
Load-store buffers acomodam os acessos à memória
Os resultados são colocados no barramento comum (CDB)
O CDB alimenta os registradores reais, estações de reserva e buffer
de escrita
Instruções control dependent não iniciam execução até a resolução do
desvio

Exemplo dos dados em estações de reserva

Execução especulativa
Desvios podem reduzir bastante o desempenho do escalonamento

dinâmico
Maior exploração de paralelismo = eliminação de dependências de
controle
Execução de instruções considerando previsões de desvio como corretas
Mecanismos para lidar com previsões incorretas

Desvios podem reduzir bastante o desempenho do escalonamento

dinâmico
Maior exploração de paralelismo = eliminação de dependências de
controle
Execução de instruções considerando previsões de desvio como corretas
Mecanismos para lidar com previsões incorretas
Especulação em HW:
Previsão dinâmica de desvios
Especulação das instruções após desvios
Escalonamento dinâmico de diferentes blocos básicos

Instruction completion x instruction commit

Instruction completion: término da operação
Instruction commit: atualização definitiva do resultado
Commit em ordem
Reorder buffer (ROB)
Armazenamento de resultados especulativos
Armazenamento de exceções pendentes

Pipeline com execução especulativa

Despacho múltiplo
Outline
1 Introdução
Introdução
VLIW
Limites de ILP

Despacho múltiplo Introdução
Despacho múltiplo
Capacidade de despacho de múltiplas instruções por ciclo de clock.

Despacho múltiplo
Capacidade de despacho de múltiplas instruções por ciclo de clock.

Possibilidades de implementação
Processadores superescalares com escalonamento estático
⇒ Execução em ordem
Processadores superescalares com escalonamento dinâmico
⇒ Execução fora de ordem
Processadores com instruções longas
⇒ VLIW - Very long instruction word
⇒ EPIC - Explicitly parallel instruction computer

Despacho múltiplo
As diferentes abordagens

Despacho múltiplo VLIW
Despacho múltiplo
VLIW
Despacho de um número fixo de operações formatadas como uma

única instrução
Despacho de pacote de instruções de tamanho fixo com indicação do
paralelismo disponı́vel

Despacho múltiplo
VLIW

Arquitetura exemplo:
Instruções com 5 operações
Uma operação com inteiros
Duas de ponto flutuante
Duas de load-store

Despacho múltiplo
VLIW

Arquitetura exemplo:
Instruções com 5 operações
Uma operação com inteiros
Duas de ponto flutuante
Duas de load-store

Despacho múltiplo
VLIW
Deve existir paralelismo suficiente para ser explorado

Escalonamento de código

Despacho múltiplo
VLIW

Loop unrolling

Despacho múltiplo
VLIW

Loop unrolling
Escalonamento local: bloco básico
Escalonamento global: através de desvios

Despacho múltiplo
VLIW

Loop unrolling
Escalonamento local: bloco básico
Escalonamento global: através de desvios
Trace scheduling

Despacho múltiplo
VLIW
Exemplo com loop unrolling :

Despacho múltiplo
VLIW
Exemplo com loop unrolling :
Desempenho: IPC = 2,5

Despacho múltiplo
VLIW
Abordagem com pouca flexibilidade

Parada em uma unidade funcional pode bloquear as demais unidades
Compatibilidade de código é limitada
Número/tipo diferente de unidades funcionais
Latências diferentes das unidades funcionais
Códigos especı́ficos para cada HW
EPIC, IA-64. Evolução do conceito VLIW
Maior flexibilidade na indicação de paralelismo entre instruções
Vários formatos de instruções

Despacho múltiplo
IA-64

Despacho múltiplo
IA-64
Modelo de programação:
128 registadores de uso geral de 64 bits
128 registradores de ponto flutuante de 82 bits
64 registradores de predicado de 1 bit (execução predicativa)
8 registradores de 64 bits para desvios indiretos
Bundles: conjunto com 3 instruções
128 bits
Instruções de 41 bits
Template de 5 bits: formato do bundle, unidades de execução e stops
Capacidade de despacho de 2 bundles por ciclo de clock

Despacho múltiplo
IA-64
Unidades de execução definidas em um template:

Despacho múltiplo
IA-64
Formatos definidos em um template:

Despacho múltiplo
IA-64
Loop unrolling com otimização do tamanho do código:

Despacho múltiplo
IA-64
Loop unrolling com otimização do número de ciclos:

Despacho múltiplo
IA-64
Execução predicativa:
Instruções associadas a registradores de predicado
Instruções de teste e desvio = desvio predicativo
Registradores de predicado modificados por instruções de comparação
e teste
Permite múltiplas comparações com uma única instrução
Execução especulativa:
Especulação de instruções de controle: deferimento de exceções
Especulação de loads: valor lido precisa ser validado

Despacho múltiplo
IA-64
Núcleo de processamento com caracterı́sticas de escalonamento

dinâmico
Scoreboarding
Mas o objetivo não é deixar o compilador explorar paralelismo?

Despacho múltiplo
IA-64
Núcleo de processamento com caracterı́sticas de escalonamento

dinâmico
Scoreboarding
Mas o objetivo não é deixar o compilador explorar paralelismo?
Técnicas de HW são muito melhores em determinados casos
Gerência de cache misses

Despacho múltiplo
IA-64
Desempenhos para SPECfp e SPECint: (1,5 GHz; 3,8 GHz; 2,8 GHz; 1,9
GHz)

Despacho múltiplo Processadores superescalares
Despacho múltiplo
Superescalares
Microarquitetura de processadores modernos.

Despacho de múltiplas instruções por ciclo

Despacho múltiplo
Superescalares
Microarquitetura de processadores modernos.

Despacho de múltiplas instruções por ciclo
Expansão do HW de despacho
Expansão do HW de completion
Atualização paralela das tabelas nas estações de reserva

Despacho múltiplo
Superescalares
Ampliação do CDB, barramentos, lógica de despacho, etc.

Despacho múltiplo
Superescalares
Aumento da taxa de despacho: branch-target buffer (BTB).

Despacho múltiplo
Superescalares
Return address predictors:

Despacho múltiplo
Superescalares
Limites na especulação:

Despacho múltiplo Limites de ILP
Limites de ILP
O processador perfeito
Número infinito de regitradores de rascunho

Previsão de desvios perfeita
Caches perfeitas
Única limitação: paralelismo existente no SW

Limites de ILP
O processador perfeito
Número infinito de regitradores de rascunho

Previsão de desvios perfeita
Caches perfeitas
Única limitação: paralelismo existente no SW
SPEC92:

Despacho múltiplo
O processador (quase) possı́vel
64 instruções por ciclo, preditor tournament de 1K, 64+64 reg. renaming

Despacho múltiplo
Mais que ILP?
TLP
DLP

Ac 10 DLP 2013

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Ac 10 DLP 2013

Hochgeladen von

Copyright:

Verfügbare Formate

Arquitetura de Computadores

Prof. Denis Franco

Universidade Federal do Rio Grande

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 1 / 71

2 Exploração de ILP via SW

3 Exploração de ILP via HW

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 2 / 71

2 Exploração de ILP via SW

3 Exploração de ILP via HW

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 3 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 4 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 4 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 4 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 4 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 4 / 71

Instruction Level Parallelism

Instruction Level Parallelism

O paralelismo existente em um bloco básico é restrito

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 5 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 6 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 6 / 71

Instruction Level Parallelism

Cada iteração do laço é independente da anterior:

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 6 / 71

Instruction Level Parallelism

Cada iteração do laço é independente da anterior:

Instruction Level Parallelism

Instruções sem dependências

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 7 / 71

Instruction Level Parallelism

Instruções sem dependências

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 7 / 71

Instruction Level Parallelism

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 8 / 71

Instruction Level Parallelism

Dependências reais: a instrução j é dependente da instrução i se:

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 8 / 71

Instruction Level Parallelism

Dependências reais: a instrução j é dependente da instrução i se:

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 8 / 71

Instruction Level Parallelism

Dependências reais: a instrução j é dependente da instrução i se:

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 9 / 71

Instruction Level Parallelism

Gerenciando dependências reais

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 10 / 71

Instruction Level Parallelism

Gerenciando dependências reais

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 10 / 71

Instruction Level Parallelism

Gerenciando dependências reais

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 10 / 71

Instruction Level Parallelism

Gerenciando dependências reais

Prof. Denis Franco (denisfranco@furg.br) Arquitetura de Computadores Junho 2013 10 / 71

Instruction Level Parallelism