Chap 6 - Architectures - Parallèles - Final

Chapitre 6:
Les architectures
parallèles
M. Koudil – Ecole nationale Supérieure d’Informatique 1

Introduction
Introduction
Temps d’exécution d’un programme:
Nbre Instructions x Nbre de cycles moyen par instruction x Cycle Horloge
Programme Architecture Fréquence

du processeur d’horloge du
processeur

Introduction
Introduction
Programme Architecture Fréquence

du processeur d’horloge du
processeur

Problème: la dissipation de chaleur
Existence d’une barrière de dissipation de puissance:
Problème: le refroidissement: Emission thermique d'un
processeur rapide .
Source:
M. Koudil –http://www.astrosurf.com
Ecole nationale Supérieure d’Informatique 4
Problème: la dissipation de chaleur
Existence d’une barrière de dissipation de puissance:
- Solution: le refroidissement par eau.
- Serveur DLC (Direct Liquid Cooling) de Bull refroidi par de l’eau circulant dans
des plaques directement en contact avec les composants électroniques.
M.Source:
Koudil –La Recherche
Ecole nationale-Supérieure
Novembre 2012
d’Informatique 5
Introduction
Introduction
Comment réduire le nombre de cycles d’une instruction ?

Introduction
Introduction Modélisation du climat
Turbulence des fluides
Mots Mémoire
Génome humain
10G Circulation des océans
Dynamique des fluides visqueux
Modélisation des semiconducteurs
1G Modélisation des superconducteurs
Prévisions Biologie
100 M Météo structurelle
à 72 heures
Conception
1M Imagerie pharmaceutique
Prévisions médicale
Modélisation 2D
Météo Dynamique
de plasma Modélisation
à 48 heures de la Chimie
3D
Modélisation de plasma
de réservoirs
de carburants
100 M 1G 10 G 100 G 1T
Besoins en performances (Flops)
Nécessité en calcul intensif
Simulation écoulement fluides
Amérissage d'un hélicoptère

- Revue La Recherche - Novembre 2012
Modélisation climatique et météorologique
Détail sur un cyclone au large de la Réunion

Modélisation de la chimie du vivant
Interactions entre les molécules (protéines, acides nucléiques, lipides, sucres,

…) pour tester l’efficacité d’une molécule à but thérapeutique - Revue La
Recherche - Novembre 2012 10
M. Koudil – Ecole nationale Supérieure d’Informatique
Modélisation de l’univers
Distribution de la matière après le Big-Bang

Nécessité en calcul
L’accélérateur de particules du CERN:
- Anneau de 27 km de tunnel, à 100 m sous terre;
- A chaque collision, des peta-octets (1018 octets)de
données générées et stockées;
- Utilisation de très grand volumes d’information en
temps réel et en différé.
M. Koudil – Ecole nationale Supérieure d’Informatique http://www.lepoint.fr/ 12

Introduction
Introduction
 Problème:
 Les calculateurs avec un seul CPU sont souvent
incapables de répondre à certains besoins :
 Analyse des flots de liquides et aérodynamique;
 Simulation de systèmes complexes (physique, économie,
biologie, météo, technique…);
 CAO (Conception assistée par ordinateurs);
 Multimédia.
 Les applications précédentes sont caractérisées par
une très grande quantité de calculs numériques et/ou
une grande quantité de données en entrée.
Introduction
Introduction
 Une solution au besoin en performances:
 Des architectures dans lesquelles plusieurs CPUs
fonctionnent dans le but de résoudre une application
donnée;
 De tels calculateurs ont certaines caractéristiques clé:
 Nombre et complexité des CPU individuels;
 Disponibilité de mémoires partagées ou communes;
 Topologie d’interconnexion;
 Performances des réseaux d’interconnexion;
 Dispositifs d’Entrées/Sorties…
Classification
Classification de
de Flynn
Flynn
 Classification basée sur:

 La nature du flux d’instructions exécuté par le
calculateur;
 La nature du flux de données sur lesquels opèrent

les instructions.

Classification
Classification de
de Flynn
Flynn
Flux des données
Unique Multiple
Unique SISD SIMD

Flux
des
instructions
Multiple MISD MIMD

Classification
Classification de
de Flynn
Flynn
Organisations des processeurs
Single Instruction Single Instruction Multiple Instruction Multiple Instruction

stream Single Data stream Multilple Data stream Single Data stream Multilple Data
stream (SISD) stream (SIMD) stream (MISD) stream (MIMD)
Uniprocesseur Mémoire partagée Mémoire distribuée

(Shared Memory) Distributed Memory
SM (DM)
Symmetric Non-Uniform
Multiprocessor Memory Access Clusters
(SMP) (NUMA)

Classification
Classification de
de Flynn
Flynn
 SISD
Unité Unité
Flux Flux Unité
de de
d’instruction De Données Mémoire
Contrôle Traitement
 Obéit au schéma de Von-Neumann:

Un processeur unique exécute un seul flux d’instructions
pour opérer sur une donnée stockée dans une mémoire
unique;
 Les machines mono-processeurs répondent à ce schéma.
Classification
Classification de
de Flynn
Flynn (SIMD)
(SIMD)
 SIMD FD
UT ML
UT FD ML
. .
UC FI
. .
. .
UT FD ML
UC: Unité de Contrôle;
FI: Flux d’instruction;
UT: Unité de traitement;
FD: Flux de Données.
ML: Mémoire Locale;
Classification
Classification de
de Flynn
Flynn (SIMD)
(SIMD)
 SIMD
 Une seule unité de contrôle;
 Un seul compteur ordinal;
 Une instruction unique contrôle l’exécution simultanée
de plusieurs éléments de calcul;
 Chaque élément de calcul est exécuté sur un ensemble

différent de données par une unité de traitement
différente.
Classification
Classification de
de Flynn
Flynn (SIMD)
(SIMD)
 SIMD
 Plusieurs unités de traitement en général très simples;
 Chaque unité de traitement calcule un élément du
résultat;
 Les unités de traitement parallèles sont synchronisées;

 Un cycle d’horloge par traitement;
 Chaque unité a son propre registre d’adresses;
Classification
Classification de
de Flynn
Flynn (SIMD)
(SIMD)
 SIMD
 Opère sur des vecteurs de données d’où le nom de
processeur vectoriel;
 Processeurs hautement spécialisés pour les problèmes

numériques (exprimés sous forme de matrice ou de
vecteur);
Classification
Classification de de Flynn
Flynn (SIMD)
(SIMD)
 Exemple: addition de 64 nombres
 Le hardware SIMD envoie 64 flux de données aux 64
UAL pour 64 sommes;
 Premier calculateur SIMD:
ILLIAC IV (années 70), 64 processeurs
relativement puissants
 Machines actuelles:
Connection-Machine (CM2): 65536 unités de
traitement très simples connectées en hypercube;
Processeurs
Processeurs vectoriels
vectoriels
 Les processeurs vectoriels ont généralement des
registres vectoriels qui peuvent stocker de 64 à 128
mots chacun;
 Instructions vectorielles:
 Chargement de vecteur depuis la mémoire vers le registre
vectoriel;
Rangement d’un vecteur en mémoire;
Opérations arithmétiques et logiques entre des vecteurs;
 Opérations entre des vecteurs et des scalaires…
 Somme des bandes passantes à travers un lien.
Processeurs
vectoriels
 Du point de vue du programmeur, cela signifie qu’il

peut utiliser des instructions sur des vecteurs dans ses
programmes;
 Le compilateur traduit ces instructions en instructions

sur des vecteurs au niveau machine.
Processeurs
vectoriels

Processeurs
vectoriels
 Exemples de calculateurs vectoriels:
 CDC Cyber 205;
CRAY;
IBM 3090;
NEC SX;
Fujitsu VP;
Hitachi S8000
Classification
Classification de
de Flynn
Flynn (SIMD)
(SIMD)
 SIMD:
Bande
Nb Max de Bits par
Institution Nom FPUs passante Année
Processeurs processeur
(MB/s)
Univ.
Illiac IV 64 64 64 2560 1972
Illinois
Thinking
CM-2 65 536 2048 1 16 384 1987
Machines
Maspar MP-1216 16 384 0 4 23 000 1989

Classification
Classification de
de Flynn
Flynn (SIMD)
(SIMD)
 Avantages:
Meilleur avec le parallélisme à grand volume de données;
Amortit le coût du contrôle à travers les nombreuses unités
d’exécution;
Réduit la taille de la mémoire de programme;

 Inconvénient:
Peu adaptés avec des instructions très variées (ex: switch);
Classification
Classification de
de Flynn
Flynn (MISD)
(MISD)
 MISD
 Plusieurs flux d’instructions sont appliqués sur un
seul flux de données;
 Une seule séquence de données est transmise à un
ensemble de processeurs;
 Chaque processeur exécute une séquence différente
d’instructions sur les mêmes données;
 Certains auteurs considèrent que cette classe n’est
pas commercialisé;
 D’autres auteurs considèrent le pipeline comme un
schéma MISD;
Classification
Classification de
de Flynn
Flynn (MIMD)
(MIMD)
 MIMD
FI ML FD
CPU
UC FI UT UC: Unité de Contrôle;
d’interconnexion
. . ML: Mémoire Locale;
Réseau
. .
. .
FI ML FD FI: Flux d’instructions;
CPU FD: Flux de Données.
UC FI UT

Classification
Classification de
de Flynn
Flynn (MIMD)
(MIMD)
 MIMD
 Les processeurs actuels:
 Petite taille ;
 Prix réduit;
 Hautes performances.
 L’idée derrière le MIMD:
 Combiner de petits calculateurs pour obtenir un
calculateur puissant;
 Motivation derrière le MIMD:
 Répandre la disponibilité de petits microprocesseurs de
haute performance, peu chers;
 Plus grande fiabilité/disponibilité;
 Stabilité.
Classification
Classification de
de Flynn
Flynn (MIMD)
(MIMD)
 MIMD
 Un ensemble de processeurs exécutent, simultanément,
différentes séquences d’instructions sur différents flux
de données;
 Les processeurs sont à usage général;

 Chaque processeur traite une donnée distincte, et lui
applique son propre flux d’instructions.
Classification
des
architectures
MIMD

Classification
Classification des
des MIMD
MIMD
 L’organisation de la mémoire:
 Mémoire partagée (Shared Memory: SM): tous les
processeurs accèdent à la totalité de la mémoire;
 Mémoire distribuée (Distributed Memory: DM):

chaque processeur dispose d’une mémoire locale;
 Mémoire hybride (partagée et distribuée).

MIMD
à mémoire
partagée

MIMD
MIMD àà mémoire
mémoire partagée
partagée
FI ML FD
CPU
UC FI UT
Mémoire partagée
d’interconnexion
. .
Réseau
. .
. .
FI ML FD
CPU
UC FI UT
UC: Unité de Contrôle;

FI: Flux d’instructions;
FD: Flux de Données.
ML: Mémoire Locale;
MIMD
MIMD àà mémoire
mémoire partagée
partagée
 Principe:
 Un espace mémoire global, "visible" par tous les
processeurs;
 Les processeurs peuvent avoir une mémoire locale dans

laquelle une partie de la mémoire globale sera copiée
(optimisation des accès);

MIMD
MIMD àà mémoire
mémoire partagée
partagée
 Avantages:
 Un espace global adressable facilite la programmation
parallèle;
 Le partage des données entre les tâches est rapide.
 Inconvénients:
 Ce modèle ne favorise pas la scalabilité:
Ajouter un CPU augmente le trafic à travers la mémoire
partagée;
 Problème de cohérence des données:
 La cohérence entre les copies locales et la mémoire
globale doit être gérée à la fois par le hardware, le software
et parfois même par l'utilisateur.
MIMD
MIMD àà mémoire
mémoire partagée
partagée
 Les processeurs SMP (Symmetric Multiprocessors)
 Système à mémoire partagée;
 Lorsqu'un processeur lit ou écrit une donnée en mémoire, cette
donnée est transférée dans le cache du processeur;
 Mécanismes de cohérence des données;
 Tous les processeurs utilisent le même bus mémoire, ce qui limite la
scalabilité de l'architecture;
 Lorsque le nombre de processeurs rapides augmente, la contention
mémoire peut dégrader sérieusement les performances:
Ces architectures ne supportent pas un grand nombre de
processeurs (16 à 64).
MIMD
à mémoire
distribuée

MIMD
MIMD àà mémoire
mémoire distribuée
distribuée
Mémoire Mémoire Mémoire
privée privée privée
Processeur Processeur Processeur

. . .
1 2 n
Chaque processeur a sa propre mémoire privée qui n’est pas visible

aux autres processeurs.

MIMD
MIMD àà mémoire
distribuée
FI FD
CPU ML
FI
UC UT
d’interconnexion
. .
. .
Réseau
. .
FI FD
CPU ML
FI
UC UT

MIMD
MIMD àà mémoire
distribuée
 Principe:
 Un espace mémoire différent est associé à chaque processeur;
 Du point de vue du programmeur, il n’y a aucune variable

partagée: une variable ne peut être accédée que par un processeur
unique;
 L'accès à la mémoire d'un autre processeur se fait par

envoi/réception de messages à travers le réseau d’interconnexion;
 Pour la communication, l’utilisateur utilise des canaux de

communication et des primitives « send » et « receive »;
MIMD
MIMD àà mémoire
distribuée
 Principe:
 Il n’y a aucune compétition entre les processeurs pour une
mémoire partagée:
 Le nombre de processeurs n’est pas limité par la contention

mémoire;
 La vitesse du réseau d’interconnexion est un paramètre important

pour les performances globales;
 Les algorithmes utilisés doivent minimiser les échanges de

données, en distribuant les données sur les mémoires locales.
MIMD
MIMD àà mémoire
distribuée
 Avantages:
 La scalabilité est facilitée (l’ajout d’un processeur
n’influe pas sur le fonctionnement des autres);
 Chaque processeur a accès à sa propre mémoire sans
interférence ni problèmes de cohérence de cache;
 Utilisation souvent plus optimale des mémoire à accès

rapide du processeur (cache);
MIMD
MIMD àà mémoire
distribuée
 Inconvénients:
 Le programmeur doit gérer lui même les échanges de
données entre processeurs;
 La mise en oeuvre est parfois difficile et elle nécessite
souvent de nouveaux algorithmes de distribution des
données cohérentes;
 Le surcoût dû aux communications peut dans certains
cas faire chuter considérablement les performances.
MIMD
MIMD àà mémoire
distribuée
 Les Clusters:
 Groupe de calculateurs complets interconnectés;
 Les calculateurs individuels travaillent ensemble comme
une ressource de calcul unique;
 Chaque calculateur autonome dans un cluster est nommé

«nœud»;

MIMD
MIMD àà mémoire
distribuée
 Avantages des clusters:
 Haute disponibilité: du fait que chaque nœud d’un
cluster soit un calculateur individuel, une panne sur un
nœud n’entraîne pas de perte de service. La tolérance aux
fautes est souvent gérée de manière automatique par le
logiciel.
 Meilleur rapport performance/prix: en utilisant les
possibilités de construction de blocs, il est possible
d’obtenir un cluster ayant une puissance de calcul plus
grande qu’une grosse machine, à un prix réduit.
Comparaison
Clusters-SMP

Comparaison
Comparaison clusters-SMP
clusters-SMP
 Les deux architectures offrent des configurations
avec plusieurs processeurs;
 Les deux présentent des modèles commercialisés;
 Avantages du SMP:
 Plus facile à gérer et configurer;
 Plus proche du modèle de processeur unique (programmes
très répandus);
 Occupe moins d’espace et consomme moins d’énergie;

 Machines stables.
Comparaison
Comparaison clusters-SMP
clusters-SMP
 Avantages du cluster:
 Les clusters sont supérieurs aux SMP en termes de
scalabilité :
 Exemple:
 SMP Power Challenge de Silicon Graphics: 64
processeurs R10000 dans un seul système.
 Au-delà de ce nombre, les performances se dégradent
de manière significative.
 Le cluster est supérieur en termes de disponibilité
(possibilité de redondance).
 Conclusion: les approches à base de clusters se
répandent de plus en plus.
Le réseau
d’interconnexion

Le
Le réseau
réseau d’interconnexion
d’interconnexion
 Il définit les connexions entre les nœuds

mémoire/processeurs:
 Réseaux statiques – connections directes;

 Réseaux dynamiques – configurables
dynamiquement pour répondre à la demande.

Le
Le réseau
d’interconnexion
 Les paramètres clés du réseau sont:

 Bande passante totale: bits/seconde;
 Coût.
 Problèmes d’implémentation:
 La longueur des liens affecte la fréquence
d’horloge et les besoins en puissance.
Le
Le réseau
d’interconnexion

 Topologie
Topologie en
en bus
bus unique
unique
Nœud 1 Nœud 2 . . . Nœud n
 Les réseaux en bus sont simples et peu coûteux;

 Une seule communication est autorisée à la fois;
 La bande passante est partagée entre les différents nœuds;
 Les performances sont relativement mauvaises;
 Pour maintenir une certaine performance, le nombre de nœuds
doit être limité (16 – 20).
Le
Le réseau
d’interconnexion

 Topologie
Topologie en
en réseau
réseau complètement
complètement connecté
connecté
Nœud 1
Nœud 2 Nœud 5
Nœud 3 Nœud 4
 Chaque nœud est connecté à chacun des autres;

 Les communications peuvent être effectuées en parallèle entre
n’importe quelle paire de nœuds;
 Les performances sont élevées;
 Le coût augmente rapidement avec le nombre de nœuds.
Le
Le réseau
d’interconnexion

 Topologie
Topologie en
en crossbar
crossbar
Nœud 1
Nœud 2
.
.
Nœud n
 Réseau dynamique: .la topologie peut être modifiée;
 Le crossbar est complètement connecté: n’importe quel nœud peut être
directement connecté à n’importe quel autre par un switch ;
 Moins d’interconnexions sont nécessaires que dans le cas du réseau statique
complètement connecté;
 Un grand nombre de communications peuvent être effectuées en parallèle.
Le
Le réseau
d’interconnexion

 Topologie
Topologie en
en maillage
maillage
Nœud 1 Nœud 5 Nœud 9 Nœud 13
 Le réseau en maillage est moins coûteux que les réseaux complètement

connectés;
 Ils offrent des performances relativement bonnes;
 Un routage à travers des nœuds intermédiaires est nécessaire;
 Il est possible d’offrir des connexions circulaires entre les nœuds.
Le
Le réseau
d’interconnexion

 Topologie
Topologie en
en hypercube
hypercube
N0 N4
 2n nœuds sont disposés dans un
N8 N12
cube à n dimensions;
N1 N5
N9 3
 Chaque nœud est connecté à n
voisins;
N10 N14  Un routage à travers des nœuds
N2 N6 intermédiaires est nécessaire

N11 N15
(maximum n intermédiaires).
N3 N7
Le
Le réseau
d’interconnexion

 Topologie
Topologie en
en anneau
anneau
Nœud 2
Nœud 1 . . . Nœud n

Le
Le réseau
d’interconnexion

 Exemples
Exemples de
de topologies
topologies de
de réseaux
réseaux
Bande Pass. Bande Pass.
Institution Nom N Topologie /Nœud /Sys Année
(MB/s) (MB/s)
U. Illinois Illiac IV 64 Grille 2D 40 2560 1972
ICL DAP1 4096 Grille 2D 0.6 2560 1980
Goodyear MPP 16384 Grille 2D 1.2 20480 1982
Thinking
CM-2 4096 12-Cube 1 65536 1987
Machines
nCube nCube/ten 1024 10-Cube 1.2 10240 1987
Intel iPSC/2 128 7-Cube 2 896 1988
Mapar MP1216 512 Grille 2D 3 23000 1989
Intel Delta 540 Grille 2D 40 21600 1991
Thinking
CM-5 1024 Arbre 20 20480 1991
Machines
Conclusion

Exemples
Exemples de
de MIMD
MIMD

Source: http://fr.wikipedia.org/wiki/Superordinateur>
Date Superordi Constructe Type de Nombre Puissance Emplacement
nateur ur processeurs ; de réelle (en
fréquence processeu FLOPS)
rs
1938 Z1 Konrad 1 FLOPS chez Konrad Zuse
Zuse , Allemagne
1939 Z2 Konrad Zus 5 FLOPS chez Konrad Zuse
e , Allemagne
1941 Z3 Konrad Zus 5 33 Hz 20 FLOPS Deutsche Versuch
e sanstalt für Luftfa
hrt
,Allemagne
1942 Heath Rob TRE 200 FLOP Bletchley Park,

inson S Angleterre
(en)
1943 Colossus TRE 5 kilo Bletchley Park,
Mark I FLOPS Angleterre
1944 Colossus TRE 5 kFLOPS Bletchley Park,
Mark II Angleterre
Exemples
Exemples de
de MIMD
MIMD

rs
1946 ENIAC 100 kHz 50 kFLOP Aberdeen Proving
S Ground
, États-Unis
1956 TX-0 MIT Lincol 3 600, 18 bits 83 kFLOP Massachusetts Ins
n Laborator S titute of Technolo
y gy
, États-Unis
1956 TX-2 MIT Lincol 22 000, 36 bits 83 kFLOP Massachusetts Ins
n Laborator 5 MHz S titute of Technolo
y gy
, États-Unis
1958 SAGE (en) IBM 400 kFLO United States Air
PS Force
, États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
1960 UNIVAC L 500 kFLO Lawrence Liverm
ARC PS ore National Labo
(en) ratory
et
David Taylor Mod
el Basin
, États-Unis
1961 IBM 7030 IBM 1,2 Méga Los Alamos Natio
FLOPS nal Laboratory
, États-Unis
1964 CDC 6600 CDC 3 MFLOP Lawrence Liverm

S ore National Labo
ratory
,États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
1969 CDC 7600 CDC 36,4 MFL Lawrence Liverm
(en) OPS ore National Labo
ratory
,États-Unis
1974 Star-100 CDC 100 MFL Lawrence Liverm

OPS ore National Labo
ratory
,États-Unis
1975 ILLIAC I Burroughs 150 MFL Ames Research C

V OPS enter
(en) (NASA),
États-Unis
1981 Cyber-205 CDC 400 MFL plusieurs endroits
(en) OPS dans le monde

Exemples
Exemples de
de MIMD
MIMD

rs
1982 Cray Cray Cray Vector 2 400 MFL plusieurs endroits
X-MP 2*105 MHz OPS dans le monde 2
1984 Cray Cray Cray Vector 4 800 MFL plusieurs endroits

X-MP/48 4*117 MHz OPS dans le monde 2
1984 M-13 1 Giga Scientific Researc

FLOPS h Institute of Com
puter Complexes
, URSS
1985 Cray-2 Cray Vector 4 1,7 GFLO Lawrence Liverm

4*283 MHz PS ore National Labo
ratory
,États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
1989 ETA10-G/8 10,3 GFL Université de l’Ét
(en) OPS at de Floride
, États-Unis
1993 CM-5 (en) Thinking M SPARC 1 024 59,7 GFL Los Alamos Natio

achines Cor OPS nal Laboratory
poration , États-Unis
(en)
1993 Numerical Fujitsu Fujitsu VPP500 140 124,5 GFL National Aerospac
Wind Tunn OPS e Lab
el , Japon
(en)
1994 XP/S140 Intel Intel Paragon 3 680 143,4 GFL Sandia National L
OPS abs
, États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
1994 Numerical Fujitsu Fujitsu VPP500 140 170,4 GFL National Aerospac
Wind Tunn OPS e Lab
el , Japon
(en)
1996 SR2201 Hitachi Hitachi 1 024 220,4 GFL Université de Tok
SR2201 OPS yo
1996 CP-PACS Hitachi Hitachi 2 048 368,2 GFL Center, Japon
for Compu
SR2xxx CP- OPS tational Physics
PACS , Japon
1997 ASCI Red Intel Intel Paragon 7 264 1,07 Téra Sandia National L
ASCI-Red FLOPS aboratories
, États-Unis
1997 ASCI Red Intel Intel Paragon 9 152 1,34 TFL Sandia National L
ASCI-Red OPS aboratories
, États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
, États-Unis
, États-Unis
2000 ASCI Whit IBM IBM IBM 8 192 4,94 TFL Lawrence Liverm
e POWER OPS ore National Labo
(en) 3 375 MHz ratory
,États-Unis
2001 ASCI Whit IBM IBM 8 192 7,23 TFL Lawrence Liverm

e IBM POWER OPS ore National Labo
(en) 3 375 MHz ratory
,États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
2002 Earth Simu NEC NEC 5 120 35,86 TFL Yokohama Institut
lator SX6 1 000 MH OPS e for Earth Scienc
z es
, Japon
16/09/ Blue Gene/ IBM PowerPC 440 16 384 36,01 TFL Lawrence Liverm
2004 L (en) 700 MHz OPS ore National Labo
ratory
,États-Unis
26/10/ Columbia SGI Intel Itanium 2 8 192 42,7 TFL Ames Research C

2004 1 500 MHz OPS enter
(NASA),
États-Unis
11/2004 Columbia SGI Intel Itanium 2 10 160 51,87 TFL Ames Research C
1 500 MHz OPS enter
(NASA),
États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
11/2004 Blue Gene/ IBM PowerPC 440 32 768 70,7 TFL Lawrence Liverm
L (en) 700 MHz OPS ore National Labo
ratory
,États-Unis
ratory
,États-Unis
ratory
,États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
2007 Blue Gene/ IBM 478,2 TFL Lawrence Liverm
L OPS ore National Labo
ratory
,États-Unis
2008 Roadrunne IBM PowerXCell 129 600 1,042 Péta DoE-Los Alamos

r 8i 3 200 MHz FLOPS National Laborato
ry
, Los Alamos,
Nouveau-
Mexique,
États-Unis
2009 Jaguar Cray Processeurs six 224 162 1,759 PFL Laboratoire natio
(amélioré cœurs AMD OPS nal d’
en Titan) Oak Ridge,
États-Unis

Exemples
Exemples de
de MIMD
MIMD

rs
2010 Tianhe-1A NUDT (en) Hybride : Intel 14 366 + 2,566 PFL Tianjin, Chine
Xeon + GPU 7 166 OPS
NvidiaTesla
M2050 + FeiTe
ng-1000
2011 K compute Fujitsu SPARC64 68 544 10,510 PF Kobe, Japon
r VIIIfx 2,0 LOPS3
GHz, Tofu
interconnect
2012 Sequoia IBM BlueGene 16,324 PF États-Unis
/Q, Power BQC LOPS4
16C 1,60 GHz,
Custom

Exemples
Exemples de
de MIMD
MIMD

Date Superordin Construct Type de Nombre Puissance Emplacement
ateur eur processeurs ; de réelle (en
rs
2012 Titan ( Cray Hybride : 560 640 17,59 PFL Laboratoire natio
Jaguar AMD Opteron OPS nal d’Oak Ridge
amélioré) + NvidiaTesla , États-Unis
K20
2013 Tianhe-2 33,86 PFL Université
OPS chinoise de
technologie de
défense
2014 Tianhe-2 33,86 PFL Université
OPS chinoise de
technologie de
défense

TOP 5 des Supercalculateurs-Nov. 2015 (www.top500.org)
Type processeurs/ Nbre de Puiss. réelle Puiss.
Nom Fabr. Lieu
fréquence cœurs (PFlops) (MWatts)
Intel Ivy Bridge 2,2Ghz

Tianhe-2 NUDT Chine 3 120 000 33,9 17,8
+ Xeon PHI 1,2 Ghz
AMD Opteron 2,2 Ghz

Titan Cray USA 560 640 17,6 8,2
+ GPU Nvidia Kepler
http://www.pointsdactu.org
BlueGene/Q, Power BQC
Sequoia IBM USA 1 572 864 17,2 7,9
16C 1,60 GHz
Le calcul haute
performance
K
Fujitsu SPARC64 VIIIfx 2 Ghz Japon 705 024 10,5 12,7
computer
BlueGene/Q, Power BQC
Mira IBM USA 786 432 8,59 3,95
16C 1,60 GHz 77
M. Koudil – Ecole nationale Supérieure d’Informatique
MIMD
MIMD àà mémoire
mémoire partagée
partagée
 Exemple de SMP
Le CRAY T3E
 Jusqu’à 1024 processeurs;

 Liens à 480MB/s.
Quelles machines pour le calcul intensif ?
Le calcul haute
performance
Titan de CRAY (2013)
devoir-de-philosophie.com
Source:
M. Koudil –http://www.01net.com
Quelles machines pour le calcul intensif ?
Le Tianhe-2: 33,86 PFLOPS Université chinoise de technologie de défense

Source:
M. Koudil http://www.journaldugeek.com/2013/06/17/tianhe-2-supercalculateur-rapide-au-monde-chinois/
– Ecole nationale Supérieure d’Informatique 80
Les calculateurs haute performance Nov. 2015
(www.top500.org)

Classement Supercalculateurs-Nov. 2015 (www.top500.org)
Classement selon le nombre de cœurs par pays.
Le calcul haute
performance
http://www.lepoint.fr/ devoir-de-philosophie.com
Les calculateurs haute performance Nov. 2015
(www.top500.org)

Evolution des types d’applications sur Supercalculateurs-
Nov. 2015 (www.top500.org)
3%
26%
42%
Le calcul haute
performance
5,6%
23%
Quel futur pour le calcul ?
Calculateur quantique ?
? Futur
Source : http://www.astrosurf.com/
Processeur quantique D-Wave 2
? Futur
M.Source
Koudil –: Ecole
http://www.dwavesys.com/
nationale Supérieure d’Informatique 86
D-Wave 2 system premier calculateur quantique commercialisé?
? Futur
http://www.lepoint.fr/
M.Source
Koudil –: Ecole
Caractéristiques :
- Environnement à -273 ° C
(150 fois plus froid que
l’espace interstellaire).
- Champ magnétique 50 000
fois inférieur au champ
terrestre.
- Sous Vide: pression 10
milliards de fois inférieur à la
pression atmosphérique.
- Le “réfrigérateur” et les
? Futur
serveurs consomment 15.5kW.
M.Source
Koudil –: Ecole
Caractéristiques :
- Centre de recherche en
photonique quantique de
l’Université de Bristol a placé
dans le Cloud un processeur
quantique en accès libre.
- Objectif pédagogique
- simulateur graphique mis en
ligne.
? Futur
M.Source
Koudil –: http://www.hpcmagazine.fr/
Quelques ordinateurs du futur : PC bluetooth.
M.http://36quaidufutur.over-blog.com/
Koudil – Ecole nationale Supérieure d’Informatique 90
http://pc-tablet.fr/
Source
M. Koudil: –http://36quaidufutur.over-blog.com
Quelques ordinateurs du futur : mot de passe intégré.
M.Source
Koudil –: Ecole
http://www.gizmodo.fr
Quelques ordinateurs du futur : pocket PC
Processeur: Intel Atom Z3735F

RAM : 2 Go
Stockage : 32 Go
Wifi – Bluetooth – HDMI – MicroSD - MicroUSB
M.Source
Koudil –: Ecole
http://www.gizmodo.fr

Chap 6 - Architectures - Parallèles - Final

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Chap 6 - Architectures - Parallèles - Final

Hochgeladen von

Copyright:

Verfügbare Formate

Chapitre 6:

M. Koudil – Ecole nationale Supérieure d’Informatique 1

Nbre Instructions x Nbre de cycles moyen par instruction x Cycle Horloge

Programme Architecture Fréquence

M. Koudil – Ecole nationale Supérieure d’Informatique 2

Nbre Instructions x Nbre de cycles moyen par instruction x Cycle Horloge

Programme Architecture Fréquence

M. Koudil – Ecole nationale Supérieure d’Informatique 3

Temps d’exécution d’un programme:

Nbre Instructions x Nbre de cycles moyen par instruction x Cycle Horloge

M. Koudil – Ecole nationale Supérieure d’Informatique 6

Amérissage d'un hélicoptère

Détail sur un cyclone au large de la Réunion

Interactions entre les molécules (protéines, acides nucléiques, lipides, sucres,

Distribution de la matière après le Big-Bang

M. Koudil – Ecole nationale Supérieure d’Informatique http://www.lepoint.fr/ 12

 Classification basée sur:

 La nature du flux de données sur lesquels opèrent

M. Koudil – Ecole nationale Supérieure d’Informatique 15

Flux des données

Unique SISD SIMD

M. Koudil – Ecole nationale Supérieure d’Informatique 16

Single Instruction Single Instruction Multiple Instruction Multiple Instruction

Uniprocesseur Mémoire partagée Mémoire distribuée

M. Koudil – Ecole nationale Supérieure d’Informatique 17

 Obéit au schéma de Von-Neumann:

 Chaque élément de calcul est exécuté sur un ensemble

 Les unités de traitement parallèles sont synchronisées;

 Processeurs hautement spécialisés pour les problèmes

 Du point de vue du programmeur, cela signifie qu’il

 Le compilateur traduit ces instructions en instructions

M. Koudil – Ecole nationale Supérieure d’Informatique 26

Maspar MP-1216 16 384 0 4 23 000 1989

M. Koudil – Ecole nationale Supérieure d’Informatique 28

Réduit la taille de la mémoire de programme;

M. Koudil – Ecole nationale Supérieure d’Informatique 31

 Les processeurs sont à usage général;

M. Koudil – Ecole nationale Supérieure d’Informatique 34

 Mémoire distribuée (Distributed Memory: DM):

 Mémoire hybride (partagée et distribuée).

M. Koudil – Ecole nationale Supérieure d’Informatique 36

UC: Unité de Contrôle;

 Les processeurs peuvent avoir une mémoire locale dans

(optimisation des accès);

M. Koudil – Ecole nationale Supérieure d’Informatique 41

Processeur Processeur Processeur

Chaque processeur a sa propre mémoire privée qui n’est pas visible

M. Koudil – Ecole nationale Supérieure d’Informatique 42

M. Koudil – Ecole nationale Supérieure d’Informatique 43

 Du point de vue du programmeur, il n’y a aucune variable

 L'accès à la mémoire d'un autre processeur se fait par

 Pour la communication, l’utilisateur utilise des canaux de

 Le nombre de processeurs n’est pas limité par la contention

 La vitesse du réseau d’interconnexion est un paramètre important

 Les algorithmes utilisés doivent minimiser les échanges de

n’influe pas sur le fonctionnement des autres);

 Chaque processeur a accès à sa propre mémoire sans

interférence ni problèmes de cohérence de cache;

 Utilisation souvent plus optimale des mémoire à accès

 Chaque calculateur autonome dans un cluster est nommé

M. Koudil – Ecole nationale Supérieure d’Informatique 48

M. Koudil – Ecole nationale Supérieure d’Informatique 50

 Occupe moins d’espace et consomme moins d’énergie;