Beruflich Dokumente
Kultur Dokumente
Dr A. Boukerram
SOMMAIRE
Dr A. Boukerram
Dr A. Boukerram
Dr A. Boukerram
Dr A. Boukerram
Dr A. Boukerram
Dr A. Boukerram
Dr A. Boukerram
Dr A. Boukerram
10
I PRESENTATION
Les ordinateurs conventionnels sont dits de type
SISD (simple flot dinstructions, simple flot de donnes). Ils fonctionnent selon le mode squentiel et sont appels galement modle de VON NEUMAN. Un ordinateur conventionnel se compose de : une mmoire banalise o sont ranges donnes et instructions (MC). une unit de traitement (UT) une unit de commande( UC) un bus de communication reliant lensemble du systme.
Dr A. Boukerram
11
Dr A. Boukerram
12
donn Une instruction nest excute quune fois la prcdente entirement termine Le passage dune instruction une autre se fait de faon automatique (maintien dun compteur ordinal).
Dr A. Boukerram
13
dun programme dpend de : quantit de donnes traiter temps daccs la mmoire principale complexit de lalgorithme temps ncessaire lexcution dune instruction Cycle daccs mmoire
Dr A. Boukerram
14
Dbit
accs vers mmoire (externe ou centrale) est dtermin par le dbit du bus de communication.
Unit de mesure du dbit est donn en bits/ seconde,
Dr A. Boukerram
15
Cycle dinstruction
Cycle dinstruction = cycle machine qui dpend de la
puissance de calcul de lunit de traitement, qui elle se mesure en : MIPS (million dinstructions par seconde) MOPS (million doprations par seconde) MFLOPS (million dopration flottantes par seconde)
Dr A. Boukerram
16
conventionnelles, il suffit dvaluer les temps de traitement ncessaires lexcution dune application manipulant une grande quantit de donnes et confronter ces temps aux exigences temps rel du monde industriel. Ce sont ces limites, qui imposent lutilisation des machines parallles.
Dr A. Boukerram
17
Exemple : Calculer le temps dexcution dun algorithme de calcul matriciel, sur une machine squentielle cadence par un processeur dune frquence de1 Mhz. Algorithme - Entre : Matrice (1000*1000) lments, range en MC
- Chacun des lments de la matrice ncessite 50
instructions
- 1 cycle machine = 1 cycle daccs en MC
Dr A. Boukerram
18
Solution
cycle de calcul = T= 1/f= 1/106 = 10-6 s = 1s nombre daccs mmoire = 2* 106 accs
(1 accs en LOAD, un autre en STORE) Temps lis aux accs mmoire = 2 106 * 1s =2s Temps de calcul = 106 * 50 * 1 s = 50 s Temps total dxcution = 52 s
Dr A. Boukerram
19
Mythes du paralllisme
Les Deux Mythes du Paralllisme :
tendance penser que les gains en matire de performances croit de faon linaire.
1 machine met T pour excuter un pgm P N machines mettront T/N pour excuter P
Dr A. Boukerram
20
Gains exprims
Dr A. Boukerram
21
le paralllisme c'est le mythe Vitesse( puissance de calcul) avec multiplication de processeurs fnt en // De nombreuses applications scientifiques, techniques, mdicales, ... ont des besoins normes en puissance de calcul qui ne peuvent pas tre satisfaits par les machines squentielles classiques, aussi performantes soient-elles ?
Dr A. Boukerram
22
Mythe holiste
La seconde raison qui pousse les informaticiens
vers le paralllisme c'est le mythe Holiste qui s'intresse avant tout la puissance expressive des modles de calcul parallles. Cette approche a donn naissance des modles de calcul diffrents du modle squentiel classique : par exemple, ils ne comportent pas de compteur ordinal (Data Driven / Demand Driven ...) ou bien ils utilisent une organisation bien particulire (Cellulaire, Neuronal ...)
Dr A. Boukerram
23
Dr A. Boukerram
24
I. CLASSIFICATION DE FENG
Pour le classement des architectures Tse-Yun
FENG suggre dutiliser le degr de paralllisme. Le nombre maximum de bits qui peuvent tre traits pendant une unit de temps est appel Degr de paralllisme P. Degr de paralllisme moyen Pm = ( Pi / T)i = 1, T Pi : nbre de bits traits durant le i me cycle T : nombre de cycles
Dr A. Boukerram
25
Remarque : en gnral on a
Pm < P, et Feng dfinit le taux dutilisation dune machine pendant T cycles par u = Pm/P U = 1 ssi la puissance de calcul du processeur est entirement utilise. La classification par le degr de paralllisme est donne par le nombre de bits de la donne traite (n) et le nombre de mots (m) traits en parallle.
Dr A. Boukerram
26
Dr A. Boukerram
27
Le terme de flot qualifie une squence dinstructions (ou de donnes) excutes par un processeur unique.
Dr A. Boukerram
28
Simple flot de Donnes SIMD : Simple flot dInstructions, Multiple flot de Donnes MISD : Multiple flot dinstructions, Simple flot de Donnes MIMD : Multiple flot dInstructions, Multiple flot de Donnes
Dr A. Boukerram
29
Dr A. Boukerram
30
Architecture SISD/SIMD
M M M
RI
UT
UC
UT
UT
UT
UC
SIMD :FonctionnementSynchrone
Dr A. Boukerram
31
Architectures MISD/MIMD
M UT UT UT M M M
UC
UC
UC RI
Architecture MISD UT UT UT
UC
UC
UC
Architecture MIMD
Dr A. Boukerram
32
plusieurs taches. niveau bit : nombre de bits B, traits en // niveau mot : nombre de mots P traits en // niveau voisinage : nombre de voisins V accessibles simultanment niveau oprateur : nombre doprateurs O traits en // niveau programme : traitement simultan dun certain nombre de modules niveau donnes : traitement simultan de plusieurs paquets de donnes. Danielson/ Levialdi utilisent les quatre premiers paramtres pour mesurer la puissance P du paralllisme P=BxP xVxO Avec P et O qui peuvent varier dune machine une autre.
Dr A. Boukerram
33
IV.
GRANULOMETRIE
Dr A. Boukerram
34
Haut Niveau
Programmes indpendants
Gros grain
Partie de programme
Fonction ou ss-programme
Boucles ou itrations
Bas niveau
Instructions
Grain fin
Dr A. Boukerram
35
Remarque : les architectures de type SIMD sont rputes performantes pour un paralllisme fin et les architecture MIMD sont adaptes au grain fort. Avant de songer au paralllisme, savoir traduire les logiciels classiques sur des machines parallles il y a lieu de mesurer le rapport (GAIN / EFFORT) qui doit tre donc favorable.
Dr A. Boukerram
36
Gains thoriques
GAIN:
li la puissance de calcul est mesur en temps (distinguer toujours entre gain thoriques attendus > gains effectifs obtenus).
dveloppement)
Dr A. Boukerram
37
- de limportance du travail effectuer - du type de travail parallliser - des difficults de passage des outils classiques aux architectures parallles.
Dr A. Boukerram
38
tre gnralis toute application Conception de machines ddies : trop spcialises march restreint.
Dr A. Boukerram
39
Processeurs gnraux
Conception de machines
Dr A. Boukerram
40
V. ANALYSE DE PERFORMANCES
LOI dAMDHAL : Considrons un programme
ayant deux parties distinctes, lune tant trs rapide, lautre plus lente lexcution.
fn ( vitesse1, vitesse2)
Pgm1 Pgm2 Influence de la partie la plus lente sur le temps de calcul du programme.
Dr A. Boukerram
41
pourcentage squentiel du programme, S le speedup du programme est donn par : S = 1/ ( Ps + ( 1-Ps ) / Np ) (a) Np : nombre de processeurs (1-Ps) = Pp reprsente le % parallle du code. Si Ts = temps dexcution sur un processeur Tp = temps dexcution sur P processeurs alors (a) Tp = Ts / (Pp / Np + Ps) avec S = Tp/Ts
Dr A. Boukerram
42
EST LA MEILLEURE ARCHITECTURE PARALLELE : peu de processeurs puissants ou beaucoup de processeurs mais alors, moins puissants.
Trouver un compromis entre prix et performances : choix
Dr A. Boukerram
43
Computer)
un jeu dinstruction limit sexcutant sur un nombre
limit de cycles (sinon un seul) une limitation daccs mmoire aux deux oprations LOAD et STORE une utilisation systmatique des registres gnralement plus nombreux que sur les microprocesseurs CISC (Complex Instruction Set Computer) une dpendance plus forte par rapport aux compilateurs.
Dr A. Boukerram
44
un jeu dinstructions complexes avec un grand nombre dadressage accs mmoire pratiquement pour chacune des instructions usites un nombre limit de registres dusage universel moins dindpendance vis vis du compilateur
Dr A. Boukerram
45
compilateurs, pour les CISC , le dcodage est plus pnalisant vue la complexit des instructions. Processeurs CISC : Toute la famille des INTEL du 8080 jusquau Pentium , en passant par les quipements IBM sappuyant sur les CISC 8086
Dr A. Boukerram
46
concurrencent bien les processeurs INTEL. le POWER PC ( APPLE + IBM + MOTOROLA) IBM POWER 4.
Dr A. Boukerram
47
dexcution sur N processeurs est inversement proportionnel N. Ceci nest pas vrai <======> tenir compte des temps lis aux communications. Minsky prdit un SPEEDUP de lordre de Log N N = nombre de processeurs du systme.
Dr A. Boukerram
48
se pencher sur : lorganisation des mmoires (mmoire hirarchiques, mmoires caches, ou autres ) les bus ou multi-bus comme registres de transport de donnes.
Dr A. Boukerram
49
Accs mmoire
usage de mmoire locales et /ou
communes aux diffrents processeurs du systme laccs aux mmoires ( simple accs, double accs ou multiples accs). les rseaux dinterconnexion
CONCLUSION
architecture des systmes informatiques = fonction (processeurs, mmoires, bus de communication, rseaux dinterconnexion). Tendance aux Compilateurs Vectoriseurs