Sie sind auf Seite 1von 78

Seminario

Introducción a los Cluster

Instituto de Investigación en Informática de Albacete


Departamento de Sistemas Informáticos
Universidad de Castilla -La Mancha

Universidad Nacional de Piura

Profesor: Francisco José Quiles Flor


24 de marzo de 2010
1

Multiprocesadores versus cluster

• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster

1
Multiprocesadores vs Cluster

• ¿Cuál es la mejor opción?

El pez grande se come a los peces pequeños

Evolución de los computadores

Mainframe
Work- PC
Mini-
station
computador

Supercomputador Mi i
Mini-
supercomputador

2
Evolución de los computadores

Mini- Mini-
supercomputador computador

Mainframe
Work PC
Work-
station

Supercomputador

Evolución de los computadores

¿Quién se come a quién?


6

3
Evolución de los computadores

Evolución de los computadores

Causas de tan importantes cambios:

– Cambios en la tecnología

– Exigencia de las aplicaciones

– Avances en la arquitectura de computadores

– ...

4
Cambios en la tecnología

Ley de Moore:
El número de transistores que pueden ser incluidos en un circuito integrado
de silicio, y como consecuencia el poder computacional, se doblará cada 18-
24 meses.

Después de cuatro décadas ha sido posible superar los 1000 millones de


transistores en unos pocos centímetros cuadrados de silicio

La tecnología de los semiconductores ha alcanzado la barrera de los 45 nm y


va hacia los 32 nm.
• AMD Opteron™ EE Quad-Core con tecnología 45 nm
• Intel Clarkdale con tecnología de 32 nm

De una u otra forma parece que se seguirá cumpliendo, incluso más allá de
esa fecha (¿ hasta el 2020 ?)
9

Cambios en la tecnología

• Procesador
– lógica:
ló i 30% por año
ñ
– frecuencia: 20% por año

• Memoria
– capacidad DRAM: 60% por año (x4 cada 3 años)
– velocidad: 10% año
– Coste por bit: 25% por año

10

5
Cambios en la tecnología

¿Dónde está el límite? • Mechanical Computing

• Disipación de calor • Electronic Computing

• Molecular Electronics
• Capacitancia
• DNA Computing
• Método de fabricación • Quantum Computing

• Coste • Optical Computing

Alternativas al silicio
11

Intel canceló el desarrollo del Pentium 4 de alta velocidad

Por Agencias [15-10-2004]

• Intel ha cancelado sus planes para lanzar su chip más veloz para
computadora de escritorio, con lo que puso fin a una carrera de 25
años durante la cual las velocidades de los microprocesadores de Intel
aumentaron mas de 750 veces.
• Esta es la segunda vez que Intel revela problemas con su plan de subir
la velocidad del Pentium 4 a cuatro gigahertzios.
• El chip Pentium 4 de 3,8 gigahertzios se mantendrá como el más
rápido en el mercado en el futuro previsible.
previsible
• El fabricante ha trasladado sus recursos al proyecto "dual core",
orientado a producir chips que tengan el poder de dos
microprocesadores en uno solo.

12

6
Límites de la tecnología
• La potencia disipada es proporcionar a:
– Frecuencia
• Además cada vez se puede acceder a menos superficie del CI en un ciclo
de reloj.
– Voltaje2
• Área alimentada es proporcionar al Voltaje necesario
– Número de transistores

C d mejoramos
Cuando j la
l tecnología
l í ded integración
i ió

Aumentamos cuadráticamente el número de transistores/cm2

13

Evolución de la tecnología

14

7
Qué es tecnología de 32 nm?

• Tamaño del átomo de Silicio


•0.24 nm
• Número de átomos de un transistor
de 45 nm de integración
•188 átomos
• Número de átomos de un transistor
de 32 nm de integración
•133 átomos
• Tamaño del átomo de Gafreno
•0.14 nm

15

Cómo se fabrica un chip

16

8
Velocidad de la luz es un problema?
• Cual es el tamaño de un chip?
– En torno a 300 mm2
• Lado de 17 mm,
mm diagonal de 25 mm
• Cual es la velocidad de la luz?
– En el aire 2,99*108 m/sc o 2,99*1011 mm/sc
– Índice de refracción del Silicio es 3.875 mm/sc
– En el Silicio 0.77*1011 mm/sc
• Cual es la frecuencia de un Pentium IV?
– 3.8
3 8 GH
GHz, luego
l ell periodo 1/3 8*109 sc
i d es: 1/3.8*10
• Cual es la distancia que se recorre en un ciclo en Silicio?
– D = Periodo * c = 20,37 mm

17

¿Son necesarios computadores más potentes?

• Estudio de fenómenos reales

• Experimentos reales son:


– Más caros: naves espaciales, aviones de combate, etc
– Más complejos: grandes túneles de viento
– Más lentos: esperar evolución del clima o las galaxias
– Más peligrosos: efectos pruebas nucleares, fármacos, etc

• Modelado mediante computador

18

9
Equilibrio entre factores

•Posibilidades

•Capacidades
•Promueve Prestaciones

•Tecnología •Arquitectura •Aplicaciones


•Posibilidades •Selección

•Posibilidades •Demanda
•Restricciones
•Nuevas
Nuevas Económicas
Restricciones •Generación

•Mercado
•Fundamental
•Fuerte
•Visible

•Adaptado de Vajapeyam/Valero (Computer, Abril 2001)

19

Multiprocesadores versus cluster

• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster

20

10
How to Run Applications Faster ?

• There are 3 ways to improve performance:


– Work Harder
– Work Smarter
– Get Help
• Computer Analogy
– Using faster hardware
– Optimized algorithms and techniques used to solve
computational tasks
– Multiple computers to solve a particular task

21

Clasificación de los computadores (Flynn)

Basada en el número de unidades de control y el número de elementos


de proceso
proceso, o dicho de otro modo,
modo en el número de flujos de control y
en el número de flujos de datos

– SI único flujo de instrucciones (single instruction stream)


– MI múltiple flujo de instrucciones (multiple instruction streams)
– SD único flujo de datos (single data stream)
– MD múltiple flujo de datos (multiple data streams)

SISD SIMD MISD MIMD


22

11
Actualmente se imponen los MIMD

Unidades ALUs y
de control registros

datos

instrucciones

datos
23

Desde el punto de vista de la memoria

24

12
Tanenbaum

SISD SIMD MISD MIMD

Multiprocesadores

UMA COMA NUMA


CRAY-T90 DDM
V t i l
Vectoriales, SMP

CC-NUMA NC-NUMA
Stanford DASH CRAY T3E
Origin 2000

Memoria compartida 25

Arquitectura de memoria compartida

Procesador Procesador Procesador Procesador

Caches Caches Caches Caches

Red de interconexión

Memoria principal Sistema de E/S

26

13
Arquitectura de memoria compartida
Pn
LOAD Direcciones
Físicas
Comunes
P2
STORE P1
P0

Espacio de
Direcciones
Compartido
Espacio de Direcciones
Direcciones Físicas
Pi d
Privado Diferentes

 La comunicación, compartición y sincronización se hace mediante operaciones. Load/Store de


variables compartidas
 Modelo de programación conocido (uniprocesador + sincronización)
 Una desventaja potencial es la escalabilidad
27

Tanenbaum

SISD SIMD MISD MIMD

Multiprocesadores Multicomputadores

UMA COMA NUMA MPP NOW


CRAY-T90 DDM Intel TFLOPS
V t i l
Vectoriales, SMP CLUSTER
SP2

CC-NUMA NC-NUMA
Stanford DASH CRAY T3E
Origin 2000

Memoria compartida Paso de mensajes


28

14
Arquitectura de memoria distribuida

Procesador Procesador Procesador

Caches Caches Caches

Memoria E/S Memoria E/S Memoria E/S

Red de interconexión

29

Arquitectura de paso de mensajes


send recv
X,Q,t Y,P,t

Dirección Y

Dirección X Espacio de
Espacio de
Direcciones Direcciones
Local Local

Proceso P Proceso Q

 La combinación send-recv establece una copia memoria a memoria y una sincronización entre
los procesos involucrados
 Enviar un mensaje consume mucho tiempo:

- Construir la cabecera del mensaje; copiar los datos en el buffer de la red; enviar el mensaje;
copiar los datos en el buffer receptor; copiar los datos del espacio S.O. al espacio usuario
30

15
Memoria compartida distribuida

Cluster de SMPs

Proc. Proc. Proc. Proc. Proc. Proc.

Caches Caches Caches Caches Caches Caches

Red de interconexión Red de interconexión

Memoria E/S Memoria E/S

Red de interconexión (Cluster)

31

Evolución en Supercomputación

1950 Univac-1 1 Kflops (103 flop/seg)


1965 IBM 7090 100 Kflops (105 flop/seg)
1970 CDC 7600 10 Mflops (107 flop/seg)
1976 Cray-1 100 Mflops (108 flop/seg)
1982 Cray X-MP 1 Gflops (109 flop/seg)
1990 TMC CM-2 10 Gflops (1010 flop/seg)
1995 Cray T3E 100 Gflops (1011 flop/seg)
2000 IBM SP 1 Tflops (1012 flop/seg)
2002 Earth Simulator 40 Tflops (4 x 1012 flop/seg)
2008 Roadrunner 1 Pflop (1015 flop/seg)

32

16
Unidades de rendimiento

1 Mflops 1 Megaflops 106 Flops


1 Gflops 1 Gigaflops 109 Flops
1 Tflops 1 Teraflops 1012 Flops
1 Pflops 1 Petaflops 1015 Flops
1 Eflops
p 1 Exaflops
p 1018 Flops
p
1 Zflops 1 Zettaflops 1021 Flops
1 Yflops 1 Yottaflops 1024 Flops

33

ASCI White

34

17
Earth Simulator

35

Blue Gene

36

18
Blue Gene

37

Blue Gene

38

19
Blue Gene

39

Multiprocesadores versus cluster

• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster

40

20
Arquitectura NOW-CLUSTER


1.10 Looking Ahead

that c omes from vi ewing


The i ntellectual synthesis
each the three perspectives
a computer system from
desi gn. It
effective c omputer
l eads to an efficient, func ti ons
tand how a machine
is when you unders ar chitecture level
and the sy stem
at the gate, ISA, W hether
the m achine.
ul ly und er stand
 that you f om puter Sc
ience,
1.10 Looking Ahead ecti ve is in C
y our car eer obj aspec t of
or some other
Engineering, this book
C om puter hope that
it is our sincerest
computers th at understanding.
that comes from vi ew ing you by providing
The i ntell ec tual synthesis w ill s erve
each the three perspectives
a computer system from
desi gn. It
effec tiv e computer
leads to an efficient, hi ne functi ons
stand how a mac
is when y ou under architecture level
and the system
at the gate, ISA, Whether
the mac hine.
underst an d
that y ou fully Science,
ive is in Computer
y ou r c areer object aspect of
or some other
Engineering, thi s book
C omputer hope that
it is our ssincerest t nding
com puters that understanding.
you by providing
w ill serve


1.10 Looking Ahead

that c omes from vi ewing


The i ntellectual synthesis
each the three perspectives
a computer system from
desi gn. It
effective c omputer
l eads to an efficient, func ti ons
tand how a machine
is when you unders ar chitecture level
and the sy stem
at the gate, ISA, W hether
the m achine.
ul ly und er stand
that you f om puter Sc
ience,
ecti ve is in C
y our car eer obj aspec t of
or some other
Engineering, this book
C om puter hope that
it is our sincerest
computers th at understanding.
you by providing
w ill s erve


1.10 Looking Ahead

that c omes from vi ewing


The i ntellectual synthesis
each the three perspectives
a computer system from
desi gn. It
effective c omputer
 l eads to an efficient, func ti ons
1.10 Looking Ahead tand how a machine
is when you unders ar chitecture level
and the sy stem
at the gate, ISA, W hether
the m achine.
ul ly und er stand
 that you f om puter Sc
ience,
1.10 Looking Ahead ecti ve is in C
that comes from vi ew ing y our car eer obj aspec t of
The i ntell ec tual synthesis or some other
each the three perspectives Engineering, this book
a computer system fr om C om puter hope that
desi gn. It
effec tiv e computer it is our sincerest
leads to an efficient, hi ne functi ons
computers th at understanding.
that c omes from vi ewing stand how a mac you by providing
The i ntellectual synthesis is when y ou under archi tecture level w ill s erve
each the three perspectives and the system
a computer system from at the gate, ISA, W hether
desi gn. It the m ac hine.
effective c omputer y underst an d
l eads to an efficient, func ti ons that y ou full puter Sci ence,
tand how a machine ive i s i n Com
is when you unders y ou r c ar eer object aspect of
ar chitecture level or some other
and the sy stem
at the gate, ISA, W hether C omputer
Engineering,
hope that
this book
the m achine.
ul ly und er stand it is our sincerest
that you f om puter Sc
ience, com puters that understanding.
ecti ve is in C you by providing
y our car eer obj aspec t of w ill serve
or some other
Engineering, this book
C om puter hope that
it is our sincerest
computers th at understanding.
you by providing
w ill s erve


1.10 Looking Ahead

that c omes from vi ewing


The i ntellectual synthesis
each the three perspectives
a computer system from
desi gn. It
effective c omputer
l eads to an efficient, func ti ons
tand how a machine
is when you unders ar chitecture level
and the sy stem
at the gate, ISA, W hether
the m achine.
ul ly und er stand
that you f om puter Sc
ience,
ecti ve is in C
y our car eer obj aspec t of
or some other
Engineering, this book
C om puter hope that
it is our sincerest
computers th at understanding.
you by providing
w ill s erve

41

¿Qué es un cluster?

“Es un tipo de sistema paralelo o distribuido que consiste en una


colección de computadores interconectados, trabajando juntos, como
si fueran un único recurso”
Rajkumar Buyya

• Un nodo de un cluster puede ser:


– PC
– Estación
E ió de
d trabajo
b j
– Un pequeño SMP
• Cada nodo tiene su propia memoria, su propio S.O. su propio servicio
de I/O.
42

21
Arquitectura típica de un cluster

43

¿Por qué un Cluster?

• Procesadores y redes hechos de encargo resultan muy


caros
• Los procesadores y redes off-the-shelf tienen altas
prestaciones
– Resultan más escalables
– Más fácil aislar fallos
– Más fácil repararlos en funcionamiento + Disponibilidad
• Aplicaciones:
– Bases de datos, servidores de ficheros, servidores Web,
simuladores…

44

22
Desventajas de los Cluster

• Modos de conexión tradicionales entre nodos


– Multiprocesadores
• BUS de memoria
• + ancho de banda, -latencia, -conflictos con tráfico de I/O
• Comunicaciones basadas en hardware
– Cluster
• BUS de I/O
• Comunicaciones basadas en software

45

Desventajas de los Cluster

• División de la memoria:
– Multiprocesadores
• Espacio de memoria compartido 1 sola copia S.O.
– Cluster
• N máquinas N memorias independientes + N copias S.O.
• Memoria disponible en un cluster es inferior

La caída de precios de las DRAM ha reducido esta desventaja

• Los costes de administración de N máquinas


independientes son muy superiores

46

23
Ventajas de los cluster

• Módulos independientes de memoria


• Conexión
C ió a través
é de
d LAN
+ Disponibilidad
+ Confiabilidad Dependability
+ Escalabilidad

• Espacio único de memoria


+ dificultad de aislamiento de fallos

47

Las 10 falacias de los Sistemas Distribuidos

– La red es fiable
– La latencia es cero
– El ancho de banda es infinito
– La red es segura
– Hay un solo administrador
– La topología no cambia
– El coste del transporte es nulo
– L redd es homogénea
La h é
– La red es estable
– Los recursos son infinitos
Peter Deutsch
48

24
Popularidad de los cluster

• Ventajas
– Bajo
B j coste
t
– Escalabilidad
– Tolerancia a fallos
– Facilidad de paralelización de aplicaciones con millones de
tareas independientes

Internet

Amazon, AOL, Google, Hotmail, Inktomi, WebTV, Yahoo…


49

Multiprocesadores versus cluster

• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster

50

25
TOP500

• El TOP500 son los 500 computadores científicos más


rápidos del mundo.
mundo
– Patrocinado por:
• Universidad de Manheim
• Universidad de Tennesse
• NERSC/LBNL
– El mejor rendimiento con el Linpack benchmark

www.top500.org

51

Evolución del uso de las arquitecturas


ww.top500.org/sublist/
•http://ww

52

26
Evolución del uso de las arquitecturas

Architecture share for 11-2009

53

Evolución del uso de las arquitecturas

54

27
Evolución del Rendimiento

6 - 7 años

55

Previsiones de futuro

56

28
Top500 Predicciones

• Primer sistema a 100 Tflops hacia finales 2005

– 1 United States
• BlueGene/L - eServer Blue Gene Solution
• IBM 131072 Proc., 2005 year, 280,6 Tf.

• Ningún sistema en la lista Top500 por debajo de 1 Tflops hacia el 2005

– 500 United States


• Blade Cluster BL-20P, Pentium4 Xeon 3.2 GHz, GigEthernet
• Hewlett-Packard 800 Proc., 2005 year, 2,7 Tf

• Primer sistema comercial a Pflops hacia 2010

57

Predicciones de expertos

1945 Thomas J. Watson (CEO de IBM):


“I think there is a world market for maybe five computers”

1975 Seymour Cray (Cray Computer):


“Only about 100 potential customers for Cray-1”

1977 Ken Olson (CEO de DEC):


“No reason for anyone to have a computer at home”

1980 IBM study:


“Only about 50 Cray-1 class computers will be sold per year”

1981 Bill Gates (Microsoft)


“640 kilobytes of memory ought to be enough for anybody”
58

29
Fabricantes de Cluster

59

Fabricantes de Cluster

60

30
The number 1

61

TOP 10 - 2009

62

31
TOP10 - 2008

63

TOP10 - 2007

64

32
TOP10 - 2006

En 2009 está:

65

Arquitectura del procesador utilizado

66

33
Arquitectura del procesador utilizado

67

Tecnología utilizada

68

34
Familia de procesadores utilizada

69

Fabricantes del chip

70

35
Procesadores
utilizados

71

por países

72

36
por continentes

73

por zonas geográficas

74

37
en países por sistemas implantados

75

Interconexión

76

38
TOP de MPPs

81

77

TOP de Clusters

406 - 2007
410 – 2008
417 - 2009

78

39
Constellations en activo

79

Áreas de aplicación

80

40
Usuarios

81

Sistema Operativo

82

41
España 2008

84

España 2009

85

42
Marenostrum

86

Número de procesadores

87

43
Número de procesadores

88

Rendimiento/coste

89

44
Multiprocesadores versus cluster

• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster

90

Cluster Computer Architecture

91

45
Componentes de un cluster

• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones

92

Datos interesantes

• ¿Qué porcentaje de procesadores son para PCs, desktop…?


– 2%

• ¿Cuántos procesadores son el mercado de empotrados?


– 11.000 millones procesadores/año

• ¿Qué supone el negocio de supercomputación para HP?


– 9%

• ¿Cuánto puede suponer las perdidas por calor?


– 30 %
93

46
¿qué evoluciona?

– Número transistores
• Se duplica
p cada 18-24 meses
– Capacidad de procesamiento de un CI
• 40-57 % anual
– Densidad de transistores
• 35 % anual
– Velocidad de los transistores
• 16 % anual
– Mejoras en la arquitectura
• 35 % anual
– Aumento área de dado
• 10-20 % anual

94

Predicción sobre la evolución de la


tecnología de integración

95

47
Número de transistores

96

•Many
Many--Core

•La ruta hacia


“Many cores” •Multi
Multi--Core

•Dual
Dual--Core

•Hyper
Hyper--threading

•Standard core
97

48
Rendimiento a Través de “Multi-Cores”

•MULTI
MULTI--CORE
•Rendimientto

•Aquí estamos
•10X

•SINGLE CORE

•3X
•2000 •2004 •2009+
•Pronóstico
•Normalized Performance vs. Initial Intel® Pentium® 4 Processor

98
•Source: Intel

Multicore processor

• Combina dos o más procesadores en un único chip.


• Th d l l parallelism
Thread-level ll li (TLP)
• Muy apropiado para servidores por ejemplo de BBDD
• Diseño específico de aplicaciones.
• Un dual-core consume significativamente menos que dos
procesadores de único núcleo, principalmente porque el
consumo lo realizan las señales externas y porque una
geometría menor permite operar a más bajo voltaje, y a su
vez se reduce la latencia.

99

49
Arquitectura de un dual-core

100

Multicore processors

Arquitectura multicore: cada procesador


contiene:
• dos o más núcleos que pueden ejecutar
instrucciones de forma simultánea.
• Multiprocesador en un solo chip: el
sistema operativo percibe cada núcleo
como procesador independiente.
• Teóricamente, paralelismo perfecto.
• Mejor aprovechamiento multithreading.
• Ejemplos: AMD Athlon dual core (2),
(2)
AMD Opteron Barcelona (4), Intel core
duo (2), Intel quad core (4), SUN
UltraSparc T1 Niagara(8), IBM Cell
• Hay que adaptar el software

50
Multicore processors

• Ventajas:
– La circuitería de la Coherencia de cache trabaja a más frecuencia
– Menos PCB que un SMP luego menos energía
– Menos energía luego menos calor
– Menos riesgos de error en el diseño
• Desventajas:
– Capacidad del SO de extraer suficientes threads
– Mejor
j uso del área en chips
p de único procesador
p
– Comparten el mismo BUS y ancho de banda de memoria
– Nuevo software con threads equilibrados

102

Software diseñado para ellos

• NewTek Lightwave • Windows XP Professional


• World of Warcraft • Windows 2003
• Bl d 3D
Blender3D • Wi d
Windows Vista
Vi
• Quake 3 & Quake 4 • Windows 7
• Falcon 4 • Mac OS X
• 3DS Max • Linux
• Adobe Photoshop
• Paint.NET
• Tangosol Coherence • OpenMP
• GigaSpaces EAG, • MPI
• MediaStudio Pro 7 & 8
• VideoStudio 10 and 10 Plus • Sony Playstation 3
• DVD MovieFactory 5 & 5 Plus .
• …

103

51
Intel multicore

• Posibilidades:

– Intel® Core™2 Duo

– Intel® Pentium® D

– Intel® Centrino® Duo

– Intel® Xeon®

– Intel® Itanium® 2
104

Arquitectura Xeon

• Los primeros Xeon estaban basado en la arquitectura


del Pentium MM, que a su vez estaban basado en el
Pentium III.
• Los actuales modelos son basados en el Pentium IV

105

52
Arquitectura Opteron AMD

106

AMD Opteron Processor

Athlon 64 X2

107

53
Comparativa Opteron vs Xeon

108

Xeon vs Opteron
Configuración hardware utilizada

109

54
Consumo Xeon vs Opteron

110

Xeon vs Opteron
Máximo número de stream soportados

111

55
Rendimiento

112

Rendimiento

56
Rendimiento

Penryn
• Nuevo procesador de Intel dual-core y quad-core desarrollado con
tecnología de 45 nm. (Nov. 2007)
• Intel ha desarrollado una nueva generación de transistores en la que ha
añadido dos capas, conocidas como High-K y Metal gate.
• Estos micros cuentan con 410 millones de transistores, en su versión de
doble núcleo, y con 820 millones de transistores en su versión de cuatro
cores.
• Por su consumo apto para portátiles.
• AMD está en 45 nm y evolucionará a 32 nm a finales del 2010 e Intel
está ya en 32 nm
– AMD Opteron™ EE Quad-Core con tecnología 45 nm
– Intel Clarkdale con tecnología de 32 nm

115

57
Lo último de Intel

116

Todo tiene su límite…

58
Futuro de Intel

Futuro de AMD

119

59
Futuro

• Intel prepara su procesador con 80 núcleos


The Inquirer (12-2-2007)
– Polaris es el nombre de la CPU con 80 cores que Intel mostró en
demostración para la llamada 'TeraFLOP Computing'.
– Polaris está hecho de pequeñas baldosas idénticas, en concreto 80 de ellas
en una matriz de 8x10
– Garantizar el suministro de los datos
• Cuenta con un router que es una unidad con 6 puertos que ofrece un
ancho de banda de 80 Gbytes con una latencia de 1,25 ns.
• Worm-hole
W h l
2
– 275 mm y consume 62 W
– Equivalente al ASCI Red con 10.000 Pentium-pro (1997)

120

Otra alternativa: Arquitecturas


Hetereogéneas
• Procesadores de red
– 1 Procesador de propósito general
– 8 Micro Engine

60
Componentes de un cluster

• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones

122

Commodity Components for Clusters

• Operating Systems
– 2 fundamental services for users
• make the computer hardware easier to use
– create a virtual machine that differs markedly from the real machine
• share hardware resources among users
– Processor - multitasking
– The new concept in OS services
• support multiple threads of control in a process itself
– parallelism within a process
– multithreading
– POSIX thread
h d iinterface
f iis a standard
d d programming
i environment
i
– Trend
• Modularity – MS Windows, IBM OS/2
• Microkernel – provide only essential OS services
– high level abstraction of OS portability

123

61
Sistema Operativo

124

Componentes de un cluster

• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones

125

62
High Performance Networks/Switches

– Ethernet (10Mbps),
– Fast Ethernet (100Mbps),
( p)
– Gigabit Ethernet (1Gbps)
– SCI (Dolphin - MPI- 12micro-sec latency)
– ATM
– Myrinet (1.2Gbps)
– InfiniBand
– Digital Memory Channel
– FDDI
– Advanced Switching
– Quadrics…

126

High Speed Networks (I)


• Fast Ethernet
– 100 Mbps
– CSMA/CD ((Carrier Sense Multiple
p Access with Collision Detection))
• Giga Ethernet
– 1Gbps
– IEEE 802.3z / 1000Base-X Architecture
• HiPPI (High Performance Parallel Interface)
– copper-based, 800/1600 Mbps over 32/64 bit lines
– point-to-point channel
• ATM ((Asynchronous
y Transfer Mode))
– connection-oriented packet switching
– fixed length (53 bytes cell)
– suitable for WAN
• SCI (Scalable Coherent Interface)
– IEEE standard 1596, hardware DSM support
127

63
High Speed Networks (II)

• ServerNet
– 1 Gbps
– originally, interconnection for high bandwidth I/O
• Myrinet
– programmable microcontroller
– 1.28 Gbps
• Memory Channel
– 800 Mbps
– virtual shared memory
– strict message ordering
• InfiniBand
– 30 Gbps (Useable Bandwidth 24 Gbps)
– 128 bits address
– VCT 128

High Speed Networks (III)

• QsNetII
– Cada enlace bidireccional a: 1.3 GBytes/s.(2 c.v.)
– Soporta broadcast sobre conjuntos de nodos aparte de punto-a-punto.
– Los conmutadores utilizan encaminamiento fuente (permiten adaptativo).
– Utiliza control de flujo wormhole.
– Topología Fat tree

129

64
High Speed Networks

130

Commodity Components for Clusters (III)

• Disk and I/O


– Overall improvement in disk access time has been less than 10% per year
– Amdahl’s law
• Speed-up obtained by from faster processors is limited by the slowest system
component
– Parallel I/O
• Carry out I/O operations in parallel, supported by parallel file system based
on hardware or software RAID
– Título: Performance study of NFS over myrinet-based cluster for parallel multimedia
applications.
– Publicación: Proceedings of 2001 Canadian Conference on Electrical and Computer
Engineering - CCECE 2001,
– Autores (p.o. de firma): T. Olivares, L. Orozco-Barbosa, F.J. Quiles, A. Garrido, P.J.
García
131

65
Componentes de un cluster

• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones

132

What is Single System Image (SSI) ?

• A single system image is the illusion, created by


software or hardware, that presents a collection of
resources as one, more powerful resource.
• SSI makes the cluster appear like a single machine to the
user, to applications, and to the network.
• A cluster without a SSI is not a cluster

133

66
Cluster Middleware & SSI

• SSI
– Supported by a middleware layer that resides between the OS and user
user-level
level
environment
– Middleware consists of essentially 2 sublayers of SW infrastructure
• SSI infrastructure
– Glue together OSs on all nodes to offer unified access to system resources
• System availability infrastructure
– Enable cluster services such as checkpointing, automatic failover, recovery from
failure, & fault-tolerant support among all nodes of the cluster

“Designing SSI cluster with hierarchical checkpoint and single I/O space”
Kai Hwang, IEEE Concurrency, vol 7 JAN-MARCH, 1999.

134

Evolution

Cluster

MPP
Sist. distribuido

SSI
135

67
SSI Boundaries -- an applications SSI
boundary

Batch System

SSI
Boundary
136

Single System Image Benefits

• Provide a simple, straightforward view of all system resources and


activities,
ti iti from
f any node
d off the
th cluster
l t
• Free the end user from having to know where an application will run
• Free the operator from having to know where a resource is located
• Let the user work with familiar interface and commands and allows the
administrators to manage the entire clusters as a single entity
• Reduce the risk of operator errors, with the result that end users see
improved reliability and higher availability of the system

137

68
Single System Image Benefits (Cont’d)

• Allowing centralize/decentralize system management and control to


avoid
id the
th needd off skilled
kill d administrators
d i i t t fromf system
t administration
d i i t ti
• Present multiple, cooperating components of an application to the
administrator as a single application
• Greatly simplify system management
• Provide location-independent
location independent message communication
• Provide transparent process migration and load balancing across nodes.
• Improved system response time and performance
138

Middleware Design Goals

• Complete Transparency in Resource Management


– Allow user to use a cluster easily without the knowledge of the underlying system
architecture
– The user is provided with the view of a globalized file system, processes, and network
• Scalable Performance
– Can easily be expanded, their performance should scale as well
– To extract the max performance, the SSI service must support load balancing & parallelism
by distributing workload evenly among nodes
• E h
Enhanced
d Availability
A il bilit
– Middleware service must be highly available at all times
– At any time, a point of failure should be recoverable without affecting a user’s application
• Employ checkpointing & fault tolerant technologies
– Handle consistency of data when replicated
139

69
SSI Support Services

• Single Entry Point


– telnet cluster.myinstitute.edu
y
– telnet node1.cluster. myinstitute.edu
• Single File Hierarchy: xFS, AFS, Solaris MC Proxy
• Single Management and Control Point: Management from single GUI
• Single Virtual Networking
• Single
Si l Memory
M S
Space - Network
N t k RAM / DSM
• Single Job Management: GLUnix, Codine, LSF
• Single User Interface: Like workstation/PC windowing environment
(CDE in Solaris/NT), may it can use Web technology
140

Availability Support Functions

• Single I/O Space (SIOS):


– any node
d can access any peripheral
i h l or disk
di k devices
d i without
ith t the
th knowledge
k l d off
physical location.
• Single Process Space (SPS)
– Any process on any node as if they are one a single node.
• Checkpointing and Process Migration.
– Saves the process state and intermediate results in memory to disk to support
rollback recovery when node fails
– Process Migration for dynamic load balancing among the cluster nodes

141

70
Resource Management and Scheduling (RMS)

• RMS is the act of distributing applications among computers to maximize their throughput
• Enable the effective and efficient utilization of the resources available
• Software components
– Resource manager
• Locating and allocating computational resource, authentication, process creation and migration
– Resource scheduler
• Queueing applications, resource location and assignment
• Reasons using RMS
– Provide an increased, and reliable, throughput of user applications on the systems
– Load balancing
– Utilizing spare CPU cycles
– Providing fault tolerant systems
– Manage access to powerful system, etc
• Basic architecture of RMS: client-server system
142

Services provided by RMS


Resource Management and Scheduling

• Process Migration
– Computational resource has become too heavily loaded
– Fault tolerant concern
• Checkpointing
• Scavenging Idle Cycles
– 70% to 90% of the time most workstations are idle
• Fault Tolerance
• Minimization of Impact on Users
• Load Balancing
• p Application
Multiple pp Queues
Q

On the feasibility of incremental checkpointing for scientific computing


J.C.Sancho, F.Petrini, G.Johnson, J.Fernandez and E.Frachtenberg

143

71
Some Popular
Resource Management Systems
Project Commercial Systems - URL
LSF http://www.platform.com/

CODINE http://www.genias.de/products/codine/tech_desc.html

Easy-LL http://www.tc.cornell.edu/UserDoc/SP/LL12/Easy/

NQE http://www.cray.com/products/software/nqe/

Public Domain System - URL


CONDOR http://www.cs.wisc.edu/condor/

GNQS http://www.gnqs.org/

DQS http://www.scri.fsu.edu/~pasko/dqs.html

PRM http://gost.isi.edu/gost-group/products/prm/

PBS http://pbs.mrj.com/
144

Programming Environments and Tools (I)

• Threads (PCs, SMPs, NOW..)


– In multiprocessor systems
• Used to simultaneously utilize all the available processors
– In uniprocessor systems
• Used to utilize the system resources effectively
– Multithreaded applications offer quicker response to user input and run faster
– Potentially portable,
portable as there exists an IEEE standard for POSIX threads
interface (pthreads)
– JAVA
– Extensively used in developing both application and system software

145

72
Programming Environments and Tools (II)

• Message Passing Systems (MPI and PVM)


– Allow efficient pparallel pprograms
g to be written for distributed memory
y systems
y
– 2 most popular high-level message-passing systems – PVM & MPI
– PVM
• both an environment & a message-passing library
– MPI
• a message passing specification, designed to be standard for distributed memory
parallel computing using explicit message passing
• attempt
tt t to
t establish
t bli h a practical,
ti l portable,
t bl efficient,
ffi i t & flexible
fl ibl standard
t d d for
f message
passing
• generally, application developers prefer MPI, as it is fast becoming the de facto
standard for message passing

146

Programming Environments and Tools (III)

• Distributed Shared Memory (DSM) Systems


– Message-passing
• the most efficient
efficient, widely
idel used,
sed programming paradigm on distributed
distrib ted memory
memor system
s stem
• complex & difficult to program
– Shared memory systems
• offer a simple and general programming model
• but suffer from scalability
– DSM on distributed memory system
• alternative cost-effective solution
• Software DSM
– U ll built
Usually b il as a separate layer
l on top off the
h communications
i i interface
i f
– Take full advantage of the application characteristics: virtual pages, objects, & language types are units of sharing
– ThreadMarks, Linda
• Hardware DSM
– Better performance, no burden on user & SW layers, fine granularity of sharing, extensions of the cache coherence scheme,
& increased HW complexity
– DASH, Merlin

147

73
Programming Environments and Tools (IV)

• Parallel Debuggers and Profilers


– Debuggers
gg
• Very limited
• HPDF (High Performance Debugging Forum) as Parallel Tools Consortium project
began in 1996
– Developed a HPD version specification, which defines the functionality, semantics, and
syntax for a commercial-line parallel debugger
– TotalView
• A commercial product from Dolphin Interconnect Solutions
• The only widely available GUI-based parallel debugger that supports multiple HPC
platforms
• Only used in homogeneous environments, where each process of the parallel
application being debugged must be running under the same version of the OS

148

Functionality of Parallel Debugger

• Managing multiple processes and multiple threads within a process


p y g each process
• Displaying p in its own window
• Displaying source code, stack trace, and stack frame for one or more processes
• Setting both source-level and machine-level breakpoints
• Sharing breakpoints between groups of processes
• Defining watch and evaluation points
• Displaying arrays and its slices
• Manipulating code variable and constants

A Portable Debugger for PVM / MPI Programs on IA64 Cluster


Xi Qian, Jian Liu, and Weimin Zheng

149

74
Programming Environments and Tools (V)

• Performance Analysis Tools


– H
Help
l a programmer to
t understand
d t d theth performance
f characteristics
h t i ti off
an application
– Analyze & locate parts of an application that exhibit poor
performance and create program bottlenecks
– Major components
• A means of inserting instrumentation calls to the performance monitoring
routines into the user’s applications
• A run-time performance library that consists of a set of monitoring routines
• A set of tools for processing and displaying the performance data
150

TotalView
• http://www.totalviewtech.com/

151

75
Performance Analysis
and Visualization Tools
Tool Supports URL
AIMS Instrumentation, monitoring library, http://science.nas.nasa.gov/Software/AIMS
analysis
l i

MPE Logging library and snapshot http://www.mcs.anl.gov/mpi/mpich


performance visualization

Pablo Monitoring library and analysis http://www-pablo.cs.uiuc.edu/Projects/Pablo/

Paradyn Dynamic instrumentation running http://www.cs.wisc.edu/paradyn


analysis
SvPablo Integrated instrumentor, monitoring http://www-pablo.cs.uiuc.edu/Projects/Pablo/
library and analysis

Vampir Monitoring library performance http://www.pallas.de/pages/vampir.htm


visualization

Dimenmas Performance prediction for message http://www.pallas.com/pages/dimemas.htm


passing programs

Paraver Program visualization and analysis http://www.cepba.upc.es/paraver

152

Multiprocesadores vs Cluster

• Multiprocesadores • Cluster
– Precio/procesador
p medio – Precio/procesador bajo
– Comunicaciones basadas en – Comunicaciones basadas en
hardware software
– Bus de memoria – Bus de E/S
– Comunicaciones intensivas – Comunicaciones medias
– Granularidad Fina – Granularidad Gruesa
– Escalabilidad media – Escalabilidad Alta
– Disponibilidad
p media – Disponibilidad alta
– Fiabilidad media – Fiabilidad alta
– 1 copia S.O. – N copias del S.O.
– Costes de administración bajos – Costes de administración altos
– Paralelización de tareas – Paralelización de tareas
dependientes independientes
– Mayores prestaciones 153

76
Computación en Cluster de Computadores

• Servidores del RAAP.


• Cluster Fujitsu Siemens
• Cluster IBM
• Cluster SUN
• Cluster
Cl t HP

154

Bibliografía

• Cluster Computing White Paper


Mark Baker, 2000
• High
igh Performance
e fo mance Cluste
Cluster Computing: Architectures
chitectu es and Systems. R.. Buyya.
uyya. Volumen
1. Prentice-hall PRT. 1999.
• High Performance Cluster Computing: Programing and applications. R. Buyya.
Volumen 2. Prentice-hall PRT. 1999.
• In search of clusters: the longing battle in lowly parallel computing. Prentice-Hall, 2º
Edición, 1998.
• How to Build a Beowulf: a guide to the implementation and application of PC
clusters. Scientific and Engineering Computation Series. MIT Press 1999.
• Parallel programming with MPI. Peter S. Pacheco. Morgan Kaufman Publishers, Inc.
1997
• Designing SSI cluster with hierarchical checkpoint and single I/O space, Kai Hwang,
IEEE Concurrency, vol 7 JAN-MARCH, 1999

155

77
Bibliografía

• Parallel Computer Architecture


D.E. Culler and J.P. Singh and Morgan Kaufmann, 1999
• Scalable Parallel Computing
Kai Hwang, Zhiwei Xu, McGraw Hill 1998
• Computer Architecture: a quantitative approach
J.L. Hennessy and D.A. Patterson, Morgan Kaufmann, 2006
• High performance mass storage and parallel I/O
H. Jim, T. Cortés, R. Buyya
• Parallel I/O for High Performance Computing
John M. May
• FFTW Home Page. http://www.fftw.org/, 2007
• Bernd Kallies. FFTW, The "Fastest Fourier Transform in the West"
http://www.hlrn.de/doc/fftw/index.html

156

Gracias por su atención

Alguna pregunta, duda o inquietud?

157

78

Das könnte Ihnen auch gefallen