Beruflich Dokumente
Kultur Dokumente
Fonctionnement et performance
des processeurs
Eric Cariou
Universit de Pau et des Pays de l'Adour
Dpartement Informatique
Eric.Cariou@univ-pau.fr
2
Plan
Registres
Bus internes
Architecture X bits
Pipeline
Prdiction de branchement
Jeux d'instructions
Calculs multimdia
Unit multimdia
Cycle de recherche
Cycle d'excution
Horloge
Squenceur
Squenceur cbl
Avantages
Squenceur cabl
Squenceur micro-programm
Accumulateur
Registres gnraux
Servent stocker
Exemple : saut si Z = 0
LOAD @B
ADD @C
STORE @A
PUSH @B
PUSH @C
ADD
POP @A
21
Modles d'accs mmoire
LOAD R1, @B
LOAD R2, @C
ADD R3, R1, R2
STORE R3, @A
Chemin de donnes
Units de calculs
Les bus
S1 et S2 : entres de l'UAL
Autres lments
Selon que l'on manipule des entiers, des adresses, des flottants,
des vecteurs ...
Consquences
32 bits : 2
32
octets = 4 Go
64 bits : 2
64
octets = 18 Millions de To
Frquence de fonctionnement
Mmoire cache
Pipeline
Architectures superscalaires
Jeu d'instructions
Cycle CPU
Avantages
Problmes
Technologiques et physique
Dgagement de chaleur
30
Frquence
Problmes (suite)
Temps de propagation
Solution
Problmes (suite)
Restaurant Universitaire
Une caisse
Entres Caisse Plats Desserts
Chane de service de repas
34
Pipeline
DE : Dcodage de l'instruction
EX : Excution du calcul
LE : lecture instruction
DE : dcodage instruction
Pour un calcul
EX : excution de l'instruction
Pour un calcul
Pour un calcul
Processeurs Intel
P4 Prescott : 30
Processeurs AMD
Athlon 64 : 12
Sun UltraSparc IV : 14
Alas
3 familles d'alas
Alas structurels
Ala de donnes
Alas de contrle
Solutions
Peu efficace
Ala structurel
Ala de donnes
R1 = 10 + R2
R3 = R1 x 20 (R1, R2 et R3 sont des registres)
Problme
Ala de donnes
Suspension du pipeline
Court-circuit du pipeline
R1 = 10 + R2
R3 = R1 x 20
R4 = 2 x R5
R6 = 10 + R5
R1 = 10 + R2
R4 = 2 x R5
R6 = 10 + R5
R3 = R1 x 20
50
Pipeline alas de donnes
2 types de rordonnancement
Alas de contrle
Problme
Solutions
Principes de la prdiction
Exemple
1 R0 = R2 - 3
2 if R1 = 0 jump suite
3 R3 = 2 x R1
4 R4 = R3 + R1
suite:
5 R3 = 0
Solution globale
Approches complmentaires
Approche multi-core
59
Paralllisation
Prend du temps
Autre technique
Avantages
Approche multi-core
Units de commande
Units de calculs
Diffrences fondamentales
Exemple de calcul
En CISC
ADD R, R, R
ADD R, A, A
ADD A, A, A ....
En RISC
Avantage CISC
Inconvnients
Avantages RISC
Inconvnient
Pipeline
Prdiction de branchement
Architecture multi-core
Mmoire cache
Problmes
Exemples
AMD Athlon 64
Caractristiques gnrales
Cache L1 de taille 2 x 64 Ko
L1 et L2 sont exclusifs
75
Exemple : AMD Athlon 64
Cache L1
Cache L2
512 Ko ou 1024 Ko
Mmoire cache
Prdiction de branchement
Description du pipeline
12 tages en calculs
entiers
17 tages en flottants
ALU FPU
1 Fetch1
2 Fetch2
3 Pick
4 Decode 1
5 Decode 2
6 Pack
7 Pack/Decode
8 Dispatch Dispatch
9 Schedule Stack Rename
10 Exec Register Rename
11 Data Cache 1 Write Schedule
12 Data Cache 2 Schedule
13 Register Read
14 FX 0
15 FX 1
16 FX 2
17 FX 3
81
Exemple : AMD Athlon 64
(4 & 5) : decode 1 et 2
(10) exec
Exemple
Utilise un benchmark
En prenant en compte
En ligne
http://www.onversity.com
http://www.lri.fr/ENSEIGNANTS/LM/archi/L4.html