Calcule Parallel - Introduction

ARCHITECTURES PARALLELES DES SYSTEMES INFORMATIQUES
Par Abdullah BOUKERRAM UFAS boukerram@hotmail.com Universit de BBA 2011
Cours architecrtures Parallles
Dr A. Boukerram
SOMMAIRE
Dr A. Boukerram
CHAPITRE I : LES ORDINATEURS CONVENTIONNELS

I PRESENTATION II. PRINCIPE DE FONCTIONNEMENT III. CARACTERISTIQUES DES MACHINES CONVENTIONNELLES IV LIMITES DES ORDINATEURS CONVENTIONNELS
Dr A. Boukerram
CHAPITRE II. CLASSIFICATION DES MACHINES PARALLELES

I. CLASSIFICATION DE FENG II. CLASSIFICATION DE FLYNN III. NIVEAUX DE CALCULS PARALLELISABLES IV. GRANULOMETRIE : V. ANALYSE DE PERFORMANCES : VI. LES MICROPROCESSEURS
Dr A. Boukerram
CHAPITRE III : ARCHITECTURE SIMD

I. PRSENTATION II. ETUDE DU PROCESSEUR GAPP DE NCR III. LA MMOIRE RAM IV. LES REGISTRES ET LES INSTRUCTIONS V. GESTION DES ENTREES/SORTIES (E/S)
Dr A. Boukerram
CHAPITRE IV: LES PROCESSEURS PIPELINE

I. PARALLELISME DOPERATEURS II. QUELQUES MACHINES PIPELINE III. Etude du Processeur Vectoriel ZIP3216 IV. Programme ZIP/C
Dr A. Boukerram
CHAPITRE V: ARCHITECTURES MIMD : LES TRANSPUTERS

I. ARCHITECTURE II. RESEAU DE TRANSPUTERS III. SYSTEME DE DEVELOPPEMENT POUR TRANSPUTER IV. LE LANGAGE OCCAM V. MACHINE RESEAU DE TRANSPUTERS VI. APPLICATION OCCAM VII. PARALLELISME SPMD
Dr A. Boukerram
CHAPITRE VI: LES GRILLES DE CALCUL

I. II. III.
Architecture des Grilles Etude du WMS Programmation du JLD
Dr A. Boukerram
CHAPITRE I : LES ORDINATEURS CONVENTIONNELS
Dr A. Boukerram
10
I PRESENTATION
Les ordinateurs conventionnels sont dits de type
SISD (simple flot dinstructions, simple flot de donnes). Ils fonctionnent selon le mode squentiel et sont appels galement modle de VON NEUMAN. Un ordinateur conventionnel se compose de : une mmoire banalise o sont ranges donnes et instructions (MC). une unit de traitement (UT) une unit de commande( UC) un bus de communication reliant lensemble du systme.
Dr A. Boukerram
11
II. PRINCIPE DE FONCTIONNEMENT

Le droulement ou lexcution dun programme se fait de manire squentielle, instruction aprs instruction. Et souvent lexcution dune instruction elle mme obit une certaine chronologie. lecture dune instruction en MC dcodage de linstruction par lUC excution de linstruction, une fois les oprandes prtes rangement des rsultats en MC
Dr A. Boukerram
12
III. CARACTERISTIQUES DES MACHINES CONVENTIONNELLES

Ces machines sont caractrises par :
Une seule instruction est excute un instant
donn Une instruction nest excute quune fois la prcdente entirement termine Le passage dune instruction une autre se fait de faon automatique (maintien dun compteur ordinal).
Dr A. Boukerram
13
IV LIMITES DES ORDINATEURS CONVENTIONNELS

Lvaluation des temps de calcul ncessaire lexcution
dun programme dpend de : quantit de donnes traiter temps daccs la mmoire principale complexit de lalgorithme temps ncessaire lexcution dune instruction Cycle daccs mmoire
Dr A. Boukerram
14
Dbit
accs vers mmoire (externe ou centrale) est dtermin par le dbit du bus de communication.
Unit de mesure du dbit est donn en bits/ seconde,
Kbits/s, Mbit/s, Gigabits/s bytes/ seconde, mots/seconde .
Dr A. Boukerram
15
Cycle dinstruction
Cycle dinstruction = cycle machine qui dpend de la
puissance de calcul de lunit de traitement, qui elle se mesure en : MIPS (million dinstructions par seconde) MOPS (million doprations par seconde) MFLOPS (million dopration flottantes par seconde)
Dr A. Boukerram
16
Limites des machines //

Pour dterminer les limites des machines
conventionnelles, il suffit dvaluer les temps de traitement ncessaires lexcution dune application manipulant une grande quantit de donnes et confronter ces temps aux exigences temps rel du monde industriel. Ce sont ces limites, qui imposent lutilisation des machines parallles.
Dr A. Boukerram
17
Exemple : Calculer le temps dexcution dun algorithme de calcul matriciel, sur une machine squentielle cadence par un processeur dune frquence de1 Mhz. Algorithme - Entre : Matrice (1000*1000) lments, range en MC
- Chacun des lments de la matrice ncessite 50
instructions
- 1 cycle machine = 1 cycle daccs en MC
Dr A. Boukerram
18
Solution
cycle de calcul = T= 1/f= 1/106 = 10-6 s = 1s nombre daccs mmoire = 2* 106 accs
(1 accs en LOAD, un autre en STORE) Temps lis aux accs mmoire = 2 106 * 1s =2s Temps de calcul = 106 * 50 * 1 s = 50 s Temps total dxcution = 52 s
Dr A. Boukerram
19
Mythes du paralllisme
Les Deux Mythes du Paralllisme :
tendance penser que les gains en matire de performances croit de faon linaire.
1 machine met T pour excuter un pgm P N machines mettront T/N pour excuter P
Dr A. Boukerram
20
Gains exprims
Dr A. Boukerram
21
La 1ire raison qui pousse les informaticiens vers
le paralllisme c'est le mythe Vitesse( puissance de calcul) avec multiplication de processeurs fnt en // De nombreuses applications scientifiques, techniques, mdicales, ... ont des besoins normes en puissance de calcul qui ne peuvent pas tre satisfaits par les machines squentielles classiques, aussi performantes soient-elles ?
Dr A. Boukerram
22
Mythe holiste
La seconde raison qui pousse les informaticiens
vers le paralllisme c'est le mythe Holiste qui s'intresse avant tout la puissance expressive des modles de calcul parallles. Cette approche a donn naissance des modles de calcul diffrents du modle squentiel classique : par exemple, ils ne comportent pas de compteur ordinal (Data Driven / Demand Driven ...) ou bien ils utilisent une organisation bien particulire (Cellulaire, Neuronal ...)
Dr A. Boukerram
23
Chapitre II. CLASSIFICATION DES MACHINES PARALLELES
Il existe plusieurs mthodes pour exploiter le paralllisme, et
celles-ci dterminent les familles de machines.
Dr A. Boukerram
24
I. CLASSIFICATION DE FENG
Pour le classement des architectures Tse-Yun
FENG suggre dutiliser le degr de paralllisme. Le nombre maximum de bits qui peuvent tre traits pendant une unit de temps est appel Degr de paralllisme P. Degr de paralllisme moyen Pm = ( Pi / T)i = 1, T Pi : nbre de bits traits durant le i me cycle T : nombre de cycles
Dr A. Boukerram
25
Remarque : en gnral on a
Pm < P, et Feng dfinit le taux dutilisation dune machine pendant T cycles par u = Pm/P U = 1 ssi la puissance de calcul du processeur est entirement utilise. La classification par le degr de paralllisme est donne par le nombre de bits de la donne traite (n) et le nombre de mots (m) traits en parallle.
Dr A. Boukerram
26
Pour une machine C , le degr maximum de paralllisme
P(C) est donn par : P(C) = n * m

n= nombre de bits de la donne traite m= nombre de mots traits en parallle
Dr A. Boukerram
27
II. Classification de Flyn

La classification est base sur la multiplicit des flots
dinstructions et des donnes.
Cette classification amne quatre familles de systmes.
Le terme de flot qualifie une squence dinstructions (ou de donnes) excutes par un processeur unique.
Dr A. Boukerram
28
Les quatre familles ainsi dfinies sont :

SISD : Simple flot dinstructions,
Simple flot de Donnes SIMD : Simple flot dInstructions, Multiple flot de Donnes MISD : Multiple flot dinstructions, Simple flot de Donnes MIMD : Multiple flot dInstructions, Multiple flot de Donnes
Dr A. Boukerram
29
Exemple de quelques machines

SISD (une unit fonctionnelle ) VAX 780 SISD (plusieurs units fonctionnelles) CRAY 1 SIMD (word slice) ILLIAC IV, BSP, PEPE SIMD (bit slice) MPP, DAP, CLIP, GAPP MIMD (couplage serr) CRAY 2 MIMD (couplage lche) IBM 3081 couplage lche : interactions sont faibles entre
les processeurs couplage serr : fortes interactions entre processeurs.
Dr A. Boukerram
30
Architecture SISD/SIMD
M M M
RI
UT
UC
UT
UT
UT
Architecture SISD Architecture
UC
SIMD :FonctionnementSynchrone
Dr A. Boukerram
31
Architectures MISD/MIMD
M UT UT UT M M M
UC
UC
UC RI
Architecture MISD UT UT UT
M : Mmoire UC : Unit de commande UT : Unit de traitement RI : Rseau dInterconnexion
UC
UC
UC
Architecture MIMD
III. NIVEAUX DE CALCULS PARALLELISABLES

Dr A. Boukerram
32
On dfini le paralllisme comme lexcution simultane de
plusieurs taches. niveau bit : nombre de bits B, traits en // niveau mot : nombre de mots P traits en // niveau voisinage : nombre de voisins V accessibles simultanment niveau oprateur : nombre doprateurs O traits en // niveau programme : traitement simultan dun certain nombre de modules niveau donnes : traitement simultan de plusieurs paquets de donnes. Danielson/ Levialdi utilisent les quatre premiers paramtres pour mesurer la puissance P du paralllisme P=BxP xVxO Avec P et O qui peuvent varier dune machine une autre.
Dr A. Boukerram
33
IV.
GRANULOMETRIE
On distingue galement plusieurs niveaux de paralllisme
au niveau de la programmation: on parle de granulomtrie

excution du grain le plus fin au plus gros grain.
Dr A. Boukerram
34
Haut Niveau
Programmes indpendants
Gros grain
Partie de programme
Fonction ou ss-programme
Boucles ou itrations
Bas niveau
Instructions
Grain fin
Dr A. Boukerram
35
Remarque : les architectures de type SIMD sont rputes performantes pour un paralllisme fin et les architecture MIMD sont adaptes au grain fort. Avant de songer au paralllisme, savoir traduire les logiciels classiques sur des machines parallles il y a lieu de mesurer le rapport (GAIN / EFFORT) qui doit tre donc favorable.
Dr A. Boukerram
36
Gains thoriques
GAIN:
li la puissance de calcul est mesur en temps (distinguer toujours entre gain thoriques attendus > gains effectifs obtenus).
EFFORT : mesur en cot (temps de
dveloppement)
Dr A. Boukerram
37
Contraintes prendre en charge

A cet effet on doit tenir compte :
- de limportance du travail effectuer - du type de travail parallliser - des difficults de passage des outils classiques aux architectures parallles.
Dr A. Boukerram
38
Pour le paralllisme les concepteurs de systmes
informatiques hsitent et butent sur plusieurs problmatiques :

Cblage dalgorithmes : efficace mais coteux et ne peut
tre gnralis toute application Conception de machines ddies : trop spcialises march restreint.
Dr A. Boukerram
39
Processeurs gnraux
Conception de machines
gnralistes : Machines lourdes Difficiles programmer Coteuses
Dr A. Boukerram
40
V. ANALYSE DE PERFORMANCES
LOI dAMDHAL : Considrons un programme
ayant deux parties distinctes, lune tant trs rapide, lautre plus lente lexcution.
Temps de calcul du programme =
fn ( vitesse1, vitesse2)
Pgm1 Pgm2 Influence de la partie la plus lente sur le temps de calcul du programme.
Dr A. Boukerram
41
Dans le cas du paralllisme, si Ps reprsente le
pourcentage squentiel du programme, S le speedup du programme est donn par : S = 1/ ( Ps + ( 1-Ps ) / Np ) (a) Np : nombre de processeurs (1-Ps) = Pp reprsente le % parallle du code. Si Ts = temps dexcution sur un processeur Tp = temps dexcution sur P processeurs alors (a) Tp = Ts / (Pp / Np + Ps) avec S = Tp/Ts
Dr A. Boukerram
42
La loi dAmdhal conduit la question suivante : QUELLE
EST LA MEILLEURE ARCHITECTURE PARALLELE : peu de processeurs puissants ou beaucoup de processeurs mais alors, moins puissants.
Trouver un compromis entre prix et performances : choix
entre microprocesseurs RISC et microprocesseurs CISC
Dr A. Boukerram
43
VI. LES MICROPROCESSEURS

MICROPROCESSEURS RISC ( Reduced Instruction Set
Computer)
un jeu dinstruction limit sexcutant sur un nombre
limit de cycles (sinon un seul) une limitation daccs mmoire aux deux oprations LOAD et STORE une utilisation systmatique des registres gnralement plus nombreux que sur les microprocesseurs CISC (Complex Instruction Set Computer) une dpendance plus forte par rapport aux compilateurs.
Dr A. Boukerram
44
MICROPROCESSEURS CISC (Complex Instruction, Set

Computer)
un jeu dinstructions complexes avec un grand nombre dadressage accs mmoire pratiquement pour chacune des instructions usites un nombre limit de registres dusage universel moins dindpendance vis vis du compilateur
Dr A. Boukerram
45
Avantages & inconvnients

Pour les RISC, la complexit est support par les
compilateurs, pour les CISC , le dcodage est plus pnalisant vue la complexit des instructions. Processeurs CISC : Toute la famille des INTEL du 8080 jusquau Pentium , en passant par les quipements IBM sappuyant sur les CISC 8086
Dr A. Boukerram
46
Processeurs RISC : Les processeurs MOTOROLA dans les micro-ordinateurs
concurrencent bien les processeurs INTEL. le POWER PC ( APPLE + IBM + MOTOROLA) IBM POWER 4.
Dr A. Boukerram
47
LOI DE MINSKY : Tendance penser que le temps
dexcution sur N processeurs est inversement proportionnel N. Ceci nest pas vrai <======> tenir compte des temps lis aux communications. Minsky prdit un SPEEDUP de lordre de Log N N = nombre de processeurs du systme.
Dr A. Boukerram
48
Ncessit aux concepteurs de systmes informatiques de
se pencher sur : lorganisation des mmoires (mmoire hirarchiques, mmoires caches, ou autres ) les bus ou multi-bus comme registres de transport de donnes.
Dr A. Boukerram
49
Accs mmoire
usage de mmoire locales et /ou
communes aux diffrents processeurs du systme laccs aux mmoires ( simple accs, double accs ou multiples accs). les rseaux dinterconnexion
CONCLUSION
architecture des systmes informatiques = fonction (processeurs, mmoires, bus de communication, rseaux dinterconnexion). Tendance aux Compilateurs Vectoriseurs

Calcule Parallel - Introduction

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Calcule Parallel - Introduction

Hochgeladen von

Copyright:

Verfügbare Formate

ARCHITECTURES PARALLELES DES SYSTEMES INFORMATIQUES

Par Abdullah BOUKERRAM UFAS boukerram@hotmail.com Universit de BBA 2011

Cours architecrtures Parallles

Cours architecrtures Parallles

CHAPITRE I : LES ORDINATEURS CONVENTIONNELS

Cours architecrtures Parallles

CHAPITRE II. CLASSIFICATION DES MACHINES PARALLELES

Cours architecrtures Parallles

CHAPITRE III : ARCHITECTURE SIMD

Cours architecrtures Parallles

CHAPITRE IV: LES PROCESSEURS PIPELINE

Cours architecrtures Parallles

CHAPITRE V: ARCHITECTURES MIMD : LES TRANSPUTERS

Cours architecrtures Parallles

CHAPITRE VI: LES GRILLES DE CALCUL

Architecture des Grilles Etude du WMS Programmation du JLD

Cours architecrtures Parallles

CHAPITRE I : LES ORDINATEURS CONVENTIONNELS

Cours architecrtures Parallles

Cours architecrtures Parallles

II. PRINCIPE DE FONCTIONNEMENT

Cours architecrtures Parallles

III. CARACTERISTIQUES DES MACHINES CONVENTIONNELLES

Une seule instruction est excute un instant

Cours architecrtures Parallles

IV LIMITES DES ORDINATEURS CONVENTIONNELS

Cours architecrtures Parallles

Kbits/s, Mbit/s, Gigabits/s bytes/ seconde, mots/seconde .

Cours architecrtures Parallles

Cours architecrtures Parallles

Limites des machines //

Cours architecrtures Parallles

Cours architecrtures Parallles

Cours architecrtures Parallles

Cours architecrtures Parallles

Cours architecrtures Parallles

La 1ire raison qui pousse les informaticiens vers

Cours architecrtures Parallles

Cours architecrtures Parallles

Chapitre II. CLASSIFICATION DES MACHINES PARALLELES

Il existe plusieurs mthodes pour exploiter le paralllisme, et

celles-ci dterminent les familles de machines.

Cours architecrtures Parallles

Cours architecrtures Parallles

Cours architecrtures Parallles

Pour une machine C , le degr maximum de paralllisme

P(C) est donn par : P(C) = n * m

Cours architecrtures Parallles

II. Classification de Flyn

dinstructions et des donnes.

Cette classification amne quatre familles de systmes.

Cours architecrtures Parallles

Les quatre familles ainsi dfinies sont :

Cours architecrtures Parallles

Exemple de quelques machines

les processeurs couplage serr : fortes interactions entre processeurs.

Cours architecrtures Parallles

Architecture SISD Architecture

Cours architecrtures Parallles

M : Mmoire UC : Unit de commande UT : Unit de traitement RI : Rseau dInterconnexion

III. NIVEAUX DE CALCULS PARALLELISABLES

Cours architecrtures Parallles

On dfini le paralllisme comme lexcution simultane de