Introducción A Los Cluster

Seminario
Introducción a los Cluster
Instituto de Investigación en Informática de Albacete

Departamento de Sistemas Informáticos
Universidad de Castilla -La Mancha
Universidad Nacional de Piura
Profesor: Francisco José Quiles Flor

24 de marzo de 2010
1
Multiprocesadores versus cluster
• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster
1
Multiprocesadores vs Cluster
• ¿Cuál es la mejor opción?
El pez grande se come a los peces pequeños
Evolución de los computadores
Mainframe
Work- PC
Mini-
station
computador
Supercomputador Mi i
Mini-
supercomputador
2
Mini- Mini-
supercomputador computador
Mainframe
Work PC
Work-
station
Supercomputador
¿Quién se come a quién?

6
3
Causas de tan importantes cambios:
– Cambios en la tecnología
– Exigencia de las aplicaciones
– Avances en la arquitectura de computadores
– ...
4
Cambios en la tecnología
Ley de Moore:
El número de transistores que pueden ser incluidos en un circuito integrado
de silicio, y como consecuencia el poder computacional, se doblará cada 18-
24 meses.
Después de cuatro décadas ha sido posible superar los 1000 millones de

transistores en unos pocos centímetros cuadrados de silicio
La tecnología de los semiconductores ha alcanzado la barrera de los 45 nm y

va hacia los 32 nm.
• AMD Opteron™ EE Quad-Core con tecnología 45 nm
• Intel Clarkdale con tecnología de 32 nm
De una u otra forma parece que se seguirá cumpliendo, incluso más allá de
esa fecha (¿ hasta el 2020 ?)
9
• Procesador
– lógica:
ló i 30% por año
ñ
– frecuencia: 20% por año
• Memoria
– capacidad DRAM: 60% por año (x4 cada 3 años)
– velocidad: 10% año
– Coste por bit: 25% por año
10
5
¿Dónde está el límite? • Mechanical Computing
• Disipación de calor • Electronic Computing
• Molecular Electronics
• Capacitancia
• DNA Computing
• Método de fabricación • Quantum Computing
• Coste • Optical Computing
Alternativas al silicio
11
Intel canceló el desarrollo del Pentium 4 de alta velocidad
Por Agencias [15-10-2004]
• Intel ha cancelado sus planes para lanzar su chip más veloz para
computadora de escritorio, con lo que puso fin a una carrera de 25
años durante la cual las velocidades de los microprocesadores de Intel
aumentaron mas de 750 veces.
• Esta es la segunda vez que Intel revela problemas con su plan de subir
la velocidad del Pentium 4 a cuatro gigahertzios.
• El chip Pentium 4 de 3,8 gigahertzios se mantendrá como el más
rápido en el mercado en el futuro previsible.
previsible
• El fabricante ha trasladado sus recursos al proyecto "dual core",
orientado a producir chips que tengan el poder de dos
microprocesadores en uno solo.
12
6
Límites de la tecnología
• La potencia disipada es proporcionar a:
– Frecuencia
• Además cada vez se puede acceder a menos superficie del CI en un ciclo
de reloj.
– Voltaje2
• Área alimentada es proporcionar al Voltaje necesario
– Número de transistores
C d mejoramos
Cuando j la
l tecnología
l í ded integración
i ió
Aumentamos cuadráticamente el número de transistores/cm2
13
Evolución de la tecnología
14
7
Qué es tecnología de 32 nm?
• Tamaño del átomo de Silicio

•0.24 nm
• Número de átomos de un transistor
de 45 nm de integración
•188 átomos
• Número de átomos de un transistor
de 32 nm de integración
•133 átomos
• Tamaño del átomo de Gafreno
•0.14 nm
15
Cómo se fabrica un chip
16
8
Velocidad de la luz es un problema?
• Cual es el tamaño de un chip?
– En torno a 300 mm2
• Lado de 17 mm,
mm diagonal de 25 mm
• Cual es la velocidad de la luz?
– En el aire 2,99*108 m/sc o 2,99*1011 mm/sc
– Índice de refracción del Silicio es 3.875 mm/sc
– En el Silicio 0.77*1011 mm/sc
• Cual es la frecuencia de un Pentium IV?
– 3.8
3 8 GH
GHz, luego
l ell periodo 1/3 8*109 sc
i d es: 1/3.8*10
• Cual es la distancia que se recorre en un ciclo en Silicio?
– D = Periodo * c = 20,37 mm
17
¿Son necesarios computadores más potentes?
• Estudio de fenómenos reales
• Experimentos reales son:

– Más caros: naves espaciales, aviones de combate, etc
– Más complejos: grandes túneles de viento
– Más lentos: esperar evolución del clima o las galaxias
– Más peligrosos: efectos pruebas nucleares, fármacos, etc
• Modelado mediante computador
18
9
Equilibrio entre factores
•Posibilidades
•Capacidades
•Promueve Prestaciones
•Tecnología •Arquitectura •Aplicaciones

•Posibilidades •Selección
•Posibilidades •Demanda
•Restricciones
•Nuevas
Nuevas Económicas
Restricciones •Generación
•Mercado
•Fundamental
•Fuerte
•Visible
•Adaptado de Vajapeyam/Valero (Computer, Abril 2001)
19
• Introducción
• TOP500
20
10
How to Run Applications Faster ?
• There are 3 ways to improve performance:

– Work Harder
– Work Smarter
– Get Help
• Computer Analogy
– Using faster hardware
– Optimized algorithms and techniques used to solve
computational tasks
– Multiple computers to solve a particular task
21
Clasificación de los computadores (Flynn)
Basada en el número de unidades de control y el número de elementos

de proceso
proceso, o dicho de otro modo,
modo en el número de flujos de control y
en el número de flujos de datos
– SI único flujo de instrucciones (single instruction stream)

– MI múltiple flujo de instrucciones (multiple instruction streams)
– SD único flujo de datos (single data stream)
– MD múltiple flujo de datos (multiple data streams)
SISD SIMD MISD MIMD

22
11
Actualmente se imponen los MIMD
Unidades ALUs y
de control registros
datos
instrucciones
datos
23
Desde el punto de vista de la memoria
24
12
Tanenbaum
SISD SIMD MISD MIMD
Multiprocesadores
UMA COMA NUMA

CRAY-T90 DDM
V t i l
Vectoriales, SMP
CC-NUMA NC-NUMA
Stanford DASH CRAY T3E
Origin 2000
Memoria compartida 25
Arquitectura de memoria compartida
Procesador Procesador Procesador Procesador
Caches Caches Caches Caches
Red de interconexión
Memoria principal Sistema de E/S
26
13
Arquitectura de memoria compartida
Pn
LOAD Direcciones
Físicas
Comunes
P2
STORE P1
P0
Espacio de
Direcciones
Compartido
Espacio de Direcciones
Direcciones Físicas
Pi d
Privado Diferentes
 La comunicación, compartición y sincronización se hace mediante operaciones. Load/Store de

variables compartidas
 Modelo de programación conocido (uniprocesador + sincronización)
 Una desventaja potencial es la escalabilidad
27
Tanenbaum
SISD SIMD MISD MIMD
Multiprocesadores Multicomputadores
UMA COMA NUMA MPP NOW

CRAY-T90 DDM Intel TFLOPS
V t i l
Vectoriales, SMP CLUSTER
SP2
CC-NUMA NC-NUMA
Stanford DASH CRAY T3E
Origin 2000
Memoria compartida Paso de mensajes

28
14
Arquitectura de memoria distribuida
Procesador Procesador Procesador
Caches Caches Caches
Memoria E/S Memoria E/S Memoria E/S
Red de interconexión
29
Arquitectura de paso de mensajes

send recv
X,Q,t Y,P,t
Dirección Y
Dirección X Espacio de
Espacio de
Direcciones Direcciones
Local Local
Proceso P Proceso Q
 La combinación send-recv establece una copia memoria a memoria y una sincronización entre
los procesos involucrados
 Enviar un mensaje consume mucho tiempo:
- Construir la cabecera del mensaje; copiar los datos en el buffer de la red; enviar el mensaje;
copiar los datos en el buffer receptor; copiar los datos del espacio S.O. al espacio usuario
30
15
Memoria compartida distribuida
Cluster de SMPs
Proc. Proc. Proc. Proc. Proc. Proc.
Caches Caches Caches Caches Caches Caches
Red de interconexión Red de interconexión
Memoria E/S Memoria E/S
Red de interconexión (Cluster)
31
Evolución en Supercomputación
1950 Univac-1 1 Kflops (103 flop/seg)

1965 IBM 7090 100 Kflops (105 flop/seg)
1970 CDC 7600 10 Mflops (107 flop/seg)
1976 Cray-1 100 Mflops (108 flop/seg)
1982 Cray X-MP 1 Gflops (109 flop/seg)
1990 TMC CM-2 10 Gflops (1010 flop/seg)
1995 Cray T3E 100 Gflops (1011 flop/seg)
2000 IBM SP 1 Tflops (1012 flop/seg)
2002 Earth Simulator 40 Tflops (4 x 1012 flop/seg)
2008 Roadrunner 1 Pflop (1015 flop/seg)
32
16
Unidades de rendimiento
1 Mflops 1 Megaflops 106 Flops

1 Gflops 1 Gigaflops 109 Flops
1 Tflops 1 Teraflops 1012 Flops
1 Pflops 1 Petaflops 1015 Flops
1 Eflops
p 1 Exaflops
p 1018 Flops
p
1 Zflops 1 Zettaflops 1021 Flops
1 Yflops 1 Yottaflops 1024 Flops
33
ASCI White
34
17
Earth Simulator
35
Blue Gene
36
18
Blue Gene
37
Blue Gene
38
19
Blue Gene
39
• Introducción
• TOP500
40
20
Arquitectura NOW-CLUSTER

1.10 Looking Ahead
that c omes from vi ewing

The i ntellectual synthesis
each the three perspectives
a computer system from
desi gn. It
effective c omputer
l eads to an efficient, func ti ons
tand how a machine
is when you unders ar chitecture level
and the sy stem
at the gate, ISA, W hether
the m achine.
ul ly und er stand
that you f om puter Sc
ience,
1.10 Looking Ahead ecti ve is in C
y our car eer obj aspec t of
or some other
Engineering, this book
C om puter hope that
it is our sincerest
computers th at understanding.
that comes from vi ew ing you by providing
The i ntell ec tual synthesis w ill s erve
desi gn. It
effec tiv e computer
leads to an efficient, hi ne functi ons
stand how a mac
is when y ou under architecture level
and the system
at the gate, ISA, Whether
the mac hine.
underst an d
that y ou fully Science,
ive is in Computer
y ou r c areer object aspect of
or some other
Engineering, thi s book
C omputer hope that
it is our ssincerest t nding
com puters that understanding.
you by providing
w ill serve

1.10 Looking Ahead

desi gn. It
effective c omputer
tand how a machine
and the sy stem
the m achine.
ul ly und er stand
ience,
ecti ve is in C
or some other
it is our sincerest
you by providing
w ill s erve

1.10 Looking Ahead

desi gn. It
effective c omputer
1.10 Looking Ahead tand how a machine
and the sy stem
the m achine.
ul ly und er stand
ience,
1.10 Looking Ahead ecti ve is in C
that comes from vi ew ing y our car eer obj aspec t of
The i ntell ec tual synthesis or some other
each the three perspectives Engineering, this book
a computer system fr om C om puter hope that
desi gn. It
effec tiv e computer it is our sincerest
leads to an efficient, hi ne functi ons
that c omes from vi ewing stand how a mac you by providing
The i ntellectual synthesis is when y ou under archi tecture level w ill s erve
each the three perspectives and the system
a computer system from at the gate, ISA, W hether
desi gn. It the m ac hine.
effective c omputer y underst an d
l eads to an efficient, func ti ons that y ou full puter Sci ence,
tand how a machine ive i s i n Com
is when you unders y ou r c ar eer object aspect of
ar chitecture level or some other
and the sy stem
at the gate, ISA, W hether C omputer
Engineering,
hope that
this book
the m achine.
ul ly und er stand it is our sincerest
ience, com puters that understanding.
ecti ve is in C you by providing
y our car eer obj aspec t of w ill serve
or some other
it is our sincerest
you by providing
w ill s erve

1.10 Looking Ahead

desi gn. It
effective c omputer
tand how a machine
and the sy stem
the m achine.
ul ly und er stand
ience,
ecti ve is in C
or some other
it is our sincerest
you by providing
w ill s erve
41
¿Qué es un cluster?
“Es un tipo de sistema paralelo o distribuido que consiste en una

colección de computadores interconectados, trabajando juntos, como
si fueran un único recurso”
Rajkumar Buyya
• Un nodo de un cluster puede ser:

– PC
– Estación
E ió de
d trabajo
b j
– Un pequeño SMP
• Cada nodo tiene su propia memoria, su propio S.O. su propio servicio
de I/O.
42
21
Arquitectura típica de un cluster
43
¿Por qué un Cluster?
• Procesadores y redes hechos de encargo resultan muy

caros
• Los procesadores y redes off-the-shelf tienen altas
prestaciones
– Resultan más escalables
– Más fácil aislar fallos
– Más fácil repararlos en funcionamiento + Disponibilidad
• Aplicaciones:
– Bases de datos, servidores de ficheros, servidores Web,
simuladores…
44
22
Desventajas de los Cluster
• Modos de conexión tradicionales entre nodos

– Multiprocesadores
• BUS de memoria
• + ancho de banda, -latencia, -conflictos con tráfico de I/O
• Comunicaciones basadas en hardware
– Cluster
• BUS de I/O
• Comunicaciones basadas en software
45
Desventajas de los Cluster
• División de la memoria:
– Multiprocesadores
• Espacio de memoria compartido 1 sola copia S.O.
– Cluster
• N máquinas N memorias independientes + N copias S.O.
• Memoria disponible en un cluster es inferior
La caída de precios de las DRAM ha reducido esta desventaja
• Los costes de administración de N máquinas

independientes son muy superiores
46
23
Ventajas de los cluster
• Módulos independientes de memoria

• Conexión
C ió a través
é de
d LAN
+ Disponibilidad
+ Confiabilidad Dependability
+ Escalabilidad
• Espacio único de memoria

+ dificultad de aislamiento de fallos
47
Las 10 falacias de los Sistemas Distribuidos
– La red es fiable
– La latencia es cero
– El ancho de banda es infinito
– La red es segura
– Hay un solo administrador
– La topología no cambia
– El coste del transporte es nulo
– L redd es homogénea
La h é
– La red es estable
– Los recursos son infinitos
Peter Deutsch
48
24
Popularidad de los cluster
• Ventajas
– Bajo
B j coste
t
– Escalabilidad
– Tolerancia a fallos
– Facilidad de paralelización de aplicaciones con millones de
tareas independientes
Internet
Amazon, AOL, Google, Hotmail, Inktomi, WebTV, Yahoo…

49
• Introducción
• TOP500
50
25
TOP500
• El TOP500 son los 500 computadores científicos más

rápidos del mundo.
mundo
– Patrocinado por:
• Universidad de Manheim
• Universidad de Tennesse
• NERSC/LBNL
– El mejor rendimiento con el Linpack benchmark
www.top500.org
51
Evolución del uso de las arquitecturas

ww.top500.org/sublist/
•http://ww
52
26
Architecture share for 11-2009
53
54
27
Evolución del Rendimiento
6 - 7 años
55
Previsiones de futuro
56
28
Top500 Predicciones
• Primer sistema a 100 Tflops hacia finales 2005
– 1 United States
• BlueGene/L - eServer Blue Gene Solution
• IBM 131072 Proc., 2005 year, 280,6 Tf.
• Ningún sistema en la lista Top500 por debajo de 1 Tflops hacia el 2005
– 500 United States

• Blade Cluster BL-20P, Pentium4 Xeon 3.2 GHz, GigEthernet
• Hewlett-Packard 800 Proc., 2005 year, 2,7 Tf
• Primer sistema comercial a Pflops hacia 2010
57
Predicciones de expertos
1945 Thomas J. Watson (CEO de IBM):

“I think there is a world market for maybe five computers”
1975 Seymour Cray (Cray Computer):

“Only about 100 potential customers for Cray-1”
1977 Ken Olson (CEO de DEC):

“No reason for anyone to have a computer at home”
1980 IBM study:

“Only about 50 Cray-1 class computers will be sold per year”
1981 Bill Gates (Microsoft)

“640 kilobytes of memory ought to be enough for anybody”
58
29
Fabricantes de Cluster
59
Fabricantes de Cluster
60
30
The number 1
61
TOP 10 - 2009
62
31
TOP10 - 2008
63
TOP10 - 2007
64
32
TOP10 - 2006
En 2009 está:
65
Arquitectura del procesador utilizado
66
33
Arquitectura del procesador utilizado
67
Tecnología utilizada
68
34
Familia de procesadores utilizada
69
Fabricantes del chip
70
35
Procesadores
utilizados
71
por países
72
36
por continentes
73
por zonas geográficas
74
37
en países por sistemas implantados
75
Interconexión
76
38
TOP de MPPs
81
77
TOP de Clusters
406 - 2007
410 – 2008
417 - 2009
78
39
Constellations en activo
79
Áreas de aplicación
80
40
Usuarios
81
Sistema Operativo
82
41
España 2008
84
España 2009
85
42
Marenostrum
86
Número de procesadores
87
43
Número de procesadores
88
Rendimiento/coste
89
44
• Introducción
• TOP500
90
Cluster Computer Architecture
91
45
Componentes de un cluster
• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
92
Datos interesantes
• ¿Qué porcentaje de procesadores son para PCs, desktop…?

– 2%
• ¿Cuántos procesadores son el mercado de empotrados?

– 11.000 millones procesadores/año
• ¿Qué supone el negocio de supercomputación para HP?

– 9%
• ¿Cuánto puede suponer las perdidas por calor?

– 30 %
93
46
¿qué evoluciona?
– Número transistores
• Se duplica
p cada 18-24 meses
– Capacidad de procesamiento de un CI
• 40-57 % anual
– Densidad de transistores
• 35 % anual
– Velocidad de los transistores
• 16 % anual
– Mejoras en la arquitectura
• 35 % anual
– Aumento área de dado
• 10-20 % anual
94
Predicción sobre la evolución de la

tecnología de integración
95
47
Número de transistores
96
•Many
Many--Core
•La ruta hacia

“Many cores” •Multi
Multi--Core
•Dual
Dual--Core
•Hyper
Hyper--threading
•Standard core
97
48
Rendimiento a Través de “Multi-Cores”
•MULTI
MULTI--CORE
•Rendimientto
•Aquí estamos
•10X
•SINGLE CORE
•3X
•2000 •2004 •2009+
•Pronóstico
•Normalized Performance vs. Initial Intel® Pentium® 4 Processor
98
•Source: Intel
Multicore processor
• Combina dos o más procesadores en un único chip.

• Th d l l parallelism
Thread-level ll li (TLP)
• Muy apropiado para servidores por ejemplo de BBDD
• Diseño específico de aplicaciones.
• Un dual-core consume significativamente menos que dos
procesadores de único núcleo, principalmente porque el
consumo lo realizan las señales externas y porque una
geometría menor permite operar a más bajo voltaje, y a su
vez se reduce la latencia.
99
49
Arquitectura de un dual-core
100
Multicore processors
Arquitectura multicore: cada procesador

contiene:
• dos o más núcleos que pueden ejecutar
instrucciones de forma simultánea.
• Multiprocesador en un solo chip: el
sistema operativo percibe cada núcleo
como procesador independiente.
• Teóricamente, paralelismo perfecto.
• Mejor aprovechamiento multithreading.
• Ejemplos: AMD Athlon dual core (2),
(2)
AMD Opteron Barcelona (4), Intel core
duo (2), Intel quad core (4), SUN
UltraSparc T1 Niagara(8), IBM Cell
• Hay que adaptar el software
50
Multicore processors
• Ventajas:
– La circuitería de la Coherencia de cache trabaja a más frecuencia
– Menos PCB que un SMP luego menos energía
– Menos energía luego menos calor
– Menos riesgos de error en el diseño
• Desventajas:
– Capacidad del SO de extraer suficientes threads
– Mejor
j uso del área en chips
p de único procesador
p
– Comparten el mismo BUS y ancho de banda de memoria
– Nuevo software con threads equilibrados
102
Software diseñado para ellos
• NewTek Lightwave • Windows XP Professional

• World of Warcraft • Windows 2003
• Bl d 3D
Blender3D • Wi d
Windows Vista
Vi
• Quake 3 & Quake 4 • Windows 7
• Falcon 4 • Mac OS X
• 3DS Max • Linux
• Adobe Photoshop
• Paint.NET
• Tangosol Coherence • OpenMP
• GigaSpaces EAG, • MPI
• MediaStudio Pro 7 & 8
• VideoStudio 10 and 10 Plus • Sony Playstation 3
• DVD MovieFactory 5 & 5 Plus .
• …
103
51
Intel multicore
• Posibilidades:
– Intel® Core™2 Duo
– Intel® Pentium® D
– Intel® Centrino® Duo
– Intel® Xeon®
– Intel® Itanium® 2
104
Arquitectura Xeon
• Los primeros Xeon estaban basado en la arquitectura

del Pentium MM, que a su vez estaban basado en el
Pentium III.
• Los actuales modelos son basados en el Pentium IV
105
52
Arquitectura Opteron AMD
106
AMD Opteron Processor
Athlon 64 X2
107
53
Comparativa Opteron vs Xeon
108
Xeon vs Opteron
Configuración hardware utilizada
109
54
Consumo Xeon vs Opteron
110
Xeon vs Opteron
Máximo número de stream soportados
111
55
Rendimiento
112
Rendimiento
56
Rendimiento
Penryn
• Nuevo procesador de Intel dual-core y quad-core desarrollado con
tecnología de 45 nm. (Nov. 2007)
• Intel ha desarrollado una nueva generación de transistores en la que ha
añadido dos capas, conocidas como High-K y Metal gate.
• Estos micros cuentan con 410 millones de transistores, en su versión de
doble núcleo, y con 820 millones de transistores en su versión de cuatro
cores.
• Por su consumo apto para portátiles.
• AMD está en 45 nm y evolucionará a 32 nm a finales del 2010 e Intel
está ya en 32 nm
– AMD Opteron™ EE Quad-Core con tecnología 45 nm
– Intel Clarkdale con tecnología de 32 nm
115
57
Lo último de Intel
116
Todo tiene su límite…
58
Futuro de Intel
Futuro de AMD
119
59
Futuro
• Intel prepara su procesador con 80 núcleos

The Inquirer (12-2-2007)
– Polaris es el nombre de la CPU con 80 cores que Intel mostró en
demostración para la llamada 'TeraFLOP Computing'.
– Polaris está hecho de pequeñas baldosas idénticas, en concreto 80 de ellas
en una matriz de 8x10
– Garantizar el suministro de los datos
• Cuenta con un router que es una unidad con 6 puertos que ofrece un
ancho de banda de 80 Gbytes con una latencia de 1,25 ns.
• Worm-hole
W h l
2
– 275 mm y consume 62 W
– Equivalente al ASCI Red con 10.000 Pentium-pro (1997)
120
Otra alternativa: Arquitecturas

Hetereogéneas
• Procesadores de red
– 1 Procesador de propósito general
– 8 Micro Engine
60
• Nodos
• P
Procesador
d
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
122
Commodity Components for Clusters
• Operating Systems
– 2 fundamental services for users
• make the computer hardware easier to use
– create a virtual machine that differs markedly from the real machine
• share hardware resources among users
– Processor - multitasking
– The new concept in OS services
• support multiple threads of control in a process itself
– parallelism within a process
– multithreading
– POSIX thread
h d iinterface
f iis a standard
d d programming
i environment
i
– Trend
• Modularity – MS Windows, IBM OS/2
• Microkernel – provide only essential OS services
– high level abstraction of OS portability
123
61
Sistema Operativo
124
• Nodos
• P
Procesador
d
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
125
62
High Performance Networks/Switches
– Ethernet (10Mbps),
– Fast Ethernet (100Mbps),
( p)
– Gigabit Ethernet (1Gbps)
– SCI (Dolphin - MPI- 12micro-sec latency)
– ATM
– Myrinet (1.2Gbps)
– InfiniBand
– Digital Memory Channel
– FDDI
– Advanced Switching
– Quadrics…
126
High Speed Networks (I)

• Fast Ethernet
– 100 Mbps
– CSMA/CD ((Carrier Sense Multiple
p Access with Collision Detection))
• Giga Ethernet
– 1Gbps
– IEEE 802.3z / 1000Base-X Architecture
• HiPPI (High Performance Parallel Interface)
– copper-based, 800/1600 Mbps over 32/64 bit lines
– point-to-point channel
• ATM ((Asynchronous
y Transfer Mode))
– connection-oriented packet switching
– fixed length (53 bytes cell)
– suitable for WAN
• SCI (Scalable Coherent Interface)
– IEEE standard 1596, hardware DSM support
127
63
High Speed Networks (II)
• ServerNet
– 1 Gbps
– originally, interconnection for high bandwidth I/O
• Myrinet
– programmable microcontroller
– 1.28 Gbps
• Memory Channel
– 800 Mbps
– virtual shared memory
– strict message ordering
• InfiniBand
– 30 Gbps (Useable Bandwidth 24 Gbps)
– 128 bits address
– VCT 128
High Speed Networks (III)
• QsNetII
– Cada enlace bidireccional a: 1.3 GBytes/s.(2 c.v.)
– Soporta broadcast sobre conjuntos de nodos aparte de punto-a-punto.
– Los conmutadores utilizan encaminamiento fuente (permiten adaptativo).
– Utiliza control de flujo wormhole.
– Topología Fat tree
129
64
High Speed Networks
130
Commodity Components for Clusters (III)
• Disk and I/O

– Overall improvement in disk access time has been less than 10% per year
– Amdahl’s law
• Speed-up obtained by from faster processors is limited by the slowest system
component
– Parallel I/O
• Carry out I/O operations in parallel, supported by parallel file system based
on hardware or software RAID
– Título: Performance study of NFS over myrinet-based cluster for parallel multimedia
applications.
– Publicación: Proceedings of 2001 Canadian Conference on Electrical and Computer
Engineering - CCECE 2001,
– Autores (p.o. de firma): T. Olivares, L. Orozco-Barbosa, F.J. Quiles, A. Garrido, P.J.
García
131
65
• Nodos
• P
Procesador
d
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
132
What is Single System Image (SSI) ?
• A single system image is the illusion, created by

software or hardware, that presents a collection of
resources as one, more powerful resource.
• SSI makes the cluster appear like a single machine to the
user, to applications, and to the network.
• A cluster without a SSI is not a cluster
133
66
Cluster Middleware & SSI
• SSI
– Supported by a middleware layer that resides between the OS and user
user-level
level
environment
– Middleware consists of essentially 2 sublayers of SW infrastructure
• SSI infrastructure
– Glue together OSs on all nodes to offer unified access to system resources
• System availability infrastructure
– Enable cluster services such as checkpointing, automatic failover, recovery from
failure, & fault-tolerant support among all nodes of the cluster
“Designing SSI cluster with hierarchical checkpoint and single I/O space”
Kai Hwang, IEEE Concurrency, vol 7 JAN-MARCH, 1999.
134
Evolution
Cluster
MPP
Sist. distribuido
SSI
135
67
SSI Boundaries -- an applications SSI
boundary
Batch System
SSI
Boundary
136
Single System Image Benefits
• Provide a simple, straightforward view of all system resources and

activities,
ti iti from
f any node
d off the
th cluster
l t
• Free the end user from having to know where an application will run
• Free the operator from having to know where a resource is located
• Let the user work with familiar interface and commands and allows the
administrators to manage the entire clusters as a single entity
• Reduce the risk of operator errors, with the result that end users see
improved reliability and higher availability of the system
137
68
Single System Image Benefits (Cont’d)
• Allowing centralize/decentralize system management and control to

avoid
id the
th needd off skilled
kill d administrators
d i i t t fromf system
t administration
d i i t ti
• Present multiple, cooperating components of an application to the
administrator as a single application
• Greatly simplify system management
• Provide location-independent
location independent message communication
• Provide transparent process migration and load balancing across nodes.
• Improved system response time and performance
138
Middleware Design Goals
• Complete Transparency in Resource Management

– Allow user to use a cluster easily without the knowledge of the underlying system
architecture
– The user is provided with the view of a globalized file system, processes, and network
• Scalable Performance
– Can easily be expanded, their performance should scale as well
– To extract the max performance, the SSI service must support load balancing & parallelism
by distributing workload evenly among nodes
• E h
Enhanced
d Availability
A il bilit
– Middleware service must be highly available at all times
– At any time, a point of failure should be recoverable without affecting a user’s application
• Employ checkpointing & fault tolerant technologies
– Handle consistency of data when replicated
139
69
SSI Support Services
• Single Entry Point

– telnet cluster.myinstitute.edu
y
– telnet node1.cluster. myinstitute.edu
• Single File Hierarchy: xFS, AFS, Solaris MC Proxy
• Single Management and Control Point: Management from single GUI
• Single Virtual Networking
• Single
Si l Memory
M S
Space - Network
N t k RAM / DSM
• Single Job Management: GLUnix, Codine, LSF
• Single User Interface: Like workstation/PC windowing environment
(CDE in Solaris/NT), may it can use Web technology
140
Availability Support Functions
• Single I/O Space (SIOS):

– any node
d can access any peripheral
i h l or disk
di k devices
d i without
ith t the
th knowledge
k l d off
physical location.
• Single Process Space (SPS)
– Any process on any node as if they are one a single node.
• Checkpointing and Process Migration.
– Saves the process state and intermediate results in memory to disk to support
rollback recovery when node fails
– Process Migration for dynamic load balancing among the cluster nodes
141
70
Resource Management and Scheduling (RMS)
• RMS is the act of distributing applications among computers to maximize their throughput
• Enable the effective and efficient utilization of the resources available
• Software components
– Resource manager
• Locating and allocating computational resource, authentication, process creation and migration
– Resource scheduler
• Queueing applications, resource location and assignment
• Reasons using RMS
– Provide an increased, and reliable, throughput of user applications on the systems
– Load balancing
– Utilizing spare CPU cycles
– Providing fault tolerant systems
– Manage access to powerful system, etc
• Basic architecture of RMS: client-server system
142
Services provided by RMS

Resource Management and Scheduling
• Process Migration
– Computational resource has become too heavily loaded
– Fault tolerant concern
• Checkpointing
• Scavenging Idle Cycles
– 70% to 90% of the time most workstations are idle
• Fault Tolerance
• Minimization of Impact on Users
• Load Balancing
• p Application
Multiple pp Queues
Q
On the feasibility of incremental checkpointing for scientific computing

J.C.Sancho, F.Petrini, G.Johnson, J.Fernandez and E.Frachtenberg
143
71
Some Popular
Resource Management Systems
Project Commercial Systems - URL
LSF http://www.platform.com/
CODINE http://www.genias.de/products/codine/tech_desc.html
Easy-LL http://www.tc.cornell.edu/UserDoc/SP/LL12/Easy/
NQE http://www.cray.com/products/software/nqe/
Public Domain System - URL

CONDOR http://www.cs.wisc.edu/condor/
GNQS http://www.gnqs.org/
DQS http://www.scri.fsu.edu/~pasko/dqs.html
PRM http://gost.isi.edu/gost-group/products/prm/
PBS http://pbs.mrj.com/
144
Programming Environments and Tools (I)
• Threads (PCs, SMPs, NOW..)

– In multiprocessor systems
• Used to simultaneously utilize all the available processors
– In uniprocessor systems
• Used to utilize the system resources effectively
– Multithreaded applications offer quicker response to user input and run faster
– Potentially portable,
portable as there exists an IEEE standard for POSIX threads
interface (pthreads)
– JAVA
– Extensively used in developing both application and system software
145
72
Programming Environments and Tools (II)
• Message Passing Systems (MPI and PVM)

– Allow efficient pparallel pprograms
g to be written for distributed memory
y systems
y
– 2 most popular high-level message-passing systems – PVM & MPI
– PVM
• both an environment & a message-passing library
– MPI
• a message passing specification, designed to be standard for distributed memory
parallel computing using explicit message passing
• attempt
tt t to
t establish
t bli h a practical,
ti l portable,
t bl efficient,
ffi i t & flexible
fl ibl standard
t d d for
f message
passing
• generally, application developers prefer MPI, as it is fast becoming the de facto
standard for message passing
146
Programming Environments and Tools (III)
• Distributed Shared Memory (DSM) Systems

– Message-passing
• the most efficient
efficient, widely
idel used,
sed programming paradigm on distributed
distrib ted memory
memor system
s stem
• complex & difficult to program
– Shared memory systems
• offer a simple and general programming model
• but suffer from scalability
– DSM on distributed memory system
• alternative cost-effective solution
• Software DSM
– U ll built
Usually b il as a separate layer
l on top off the
h communications
i i interface
i f
– Take full advantage of the application characteristics: virtual pages, objects, & language types are units of sharing
– ThreadMarks, Linda
• Hardware DSM
– Better performance, no burden on user & SW layers, fine granularity of sharing, extensions of the cache coherence scheme,
& increased HW complexity
– DASH, Merlin
147
73
Programming Environments and Tools (IV)
• Parallel Debuggers and Profilers

– Debuggers
gg
• Very limited
• HPDF (High Performance Debugging Forum) as Parallel Tools Consortium project
began in 1996
– Developed a HPD version specification, which defines the functionality, semantics, and
syntax for a commercial-line parallel debugger
– TotalView
• A commercial product from Dolphin Interconnect Solutions
• The only widely available GUI-based parallel debugger that supports multiple HPC
platforms
• Only used in homogeneous environments, where each process of the parallel
application being debugged must be running under the same version of the OS
148
Functionality of Parallel Debugger
• Managing multiple processes and multiple threads within a process

p y g each process
• Displaying p in its own window
• Displaying source code, stack trace, and stack frame for one or more processes
• Setting both source-level and machine-level breakpoints
• Sharing breakpoints between groups of processes
• Defining watch and evaluation points
• Displaying arrays and its slices
• Manipulating code variable and constants
A Portable Debugger for PVM / MPI Programs on IA64 Cluster

Xi Qian, Jian Liu, and Weimin Zheng
149
74
Programming Environments and Tools (V)
• Performance Analysis Tools

– H
Help
l a programmer to
t understand
d t d theth performance
f characteristics
h t i ti off
an application
– Analyze & locate parts of an application that exhibit poor
performance and create program bottlenecks
– Major components
• A means of inserting instrumentation calls to the performance monitoring
routines into the user’s applications
• A run-time performance library that consists of a set of monitoring routines
• A set of tools for processing and displaying the performance data
150
TotalView
• http://www.totalviewtech.com/
151
75
Performance Analysis
and Visualization Tools
Tool Supports URL
AIMS Instrumentation, monitoring library, http://science.nas.nasa.gov/Software/AIMS
analysis
l i
MPE Logging library and snapshot http://www.mcs.anl.gov/mpi/mpich

performance visualization
Pablo Monitoring library and analysis http://www-pablo.cs.uiuc.edu/Projects/Pablo/
Paradyn Dynamic instrumentation running http://www.cs.wisc.edu/paradyn

analysis
SvPablo Integrated instrumentor, monitoring http://www-pablo.cs.uiuc.edu/Projects/Pablo/
library and analysis
Vampir Monitoring library performance http://www.pallas.de/pages/vampir.htm

visualization
Dimenmas Performance prediction for message http://www.pallas.com/pages/dimemas.htm

passing programs
Paraver Program visualization and analysis http://www.cepba.upc.es/paraver
152
Multiprocesadores vs Cluster
• Multiprocesadores • Cluster
– Precio/procesador
p medio – Precio/procesador bajo
– Comunicaciones basadas en – Comunicaciones basadas en
hardware software
– Bus de memoria – Bus de E/S
– Comunicaciones intensivas – Comunicaciones medias
– Granularidad Fina – Granularidad Gruesa
– Escalabilidad media – Escalabilidad Alta
– Disponibilidad
p media – Disponibilidad alta
– Fiabilidad media – Fiabilidad alta
– 1 copia S.O. – N copias del S.O.
– Costes de administración bajos – Costes de administración altos
– Paralelización de tareas – Paralelización de tareas
dependientes independientes
– Mayores prestaciones 153
76
Computación en Cluster de Computadores
• Servidores del RAAP.

• Cluster Fujitsu Siemens
• Cluster IBM
• Cluster SUN
• Cluster
Cl t HP
154
Bibliografía
• Cluster Computing White Paper

Mark Baker, 2000
• High
igh Performance
e fo mance Cluste
Cluster Computing: Architectures
chitectu es and Systems. R.. Buyya.
uyya. Volumen
1. Prentice-hall PRT. 1999.
• High Performance Cluster Computing: Programing and applications. R. Buyya.
Volumen 2. Prentice-hall PRT. 1999.
• In search of clusters: the longing battle in lowly parallel computing. Prentice-Hall, 2º
Edición, 1998.
• How to Build a Beowulf: a guide to the implementation and application of PC
clusters. Scientific and Engineering Computation Series. MIT Press 1999.
• Parallel programming with MPI. Peter S. Pacheco. Morgan Kaufman Publishers, Inc.
1997
• Designing SSI cluster with hierarchical checkpoint and single I/O space, Kai Hwang,
IEEE Concurrency, vol 7 JAN-MARCH, 1999
155
77
Bibliografía
• Parallel Computer Architecture

D.E. Culler and J.P. Singh and Morgan Kaufmann, 1999
• Scalable Parallel Computing
Kai Hwang, Zhiwei Xu, McGraw Hill 1998
• Computer Architecture: a quantitative approach
J.L. Hennessy and D.A. Patterson, Morgan Kaufmann, 2006
• High performance mass storage and parallel I/O
H. Jim, T. Cortés, R. Buyya
• Parallel I/O for High Performance Computing
John M. May
• FFTW Home Page. http://www.fftw.org/, 2007
• Bernd Kallies. FFTW, The "Fastest Fourier Transform in the West"
http://www.hlrn.de/doc/fftw/index.html
156
Gracias por su atención
Alguna pregunta, duda o inquietud?
157
78

Introducción A Los Cluster - Peru

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Introducción A Los Cluster - Peru

Hochgeladen von

Copyright:

Verfügbare Formate

Seminario

Instituto de Investigación en Informática de Albacete

Universidad Nacional de Piura

Profesor: Francisco José Quiles Flor

Multiprocesadores versus cluster

• ¿Cuál es la mejor opción?

El pez grande se come a los peces pequeños

Evolución de los computadores

Evolución de los computadores

¿Quién se come a quién?

Evolución de los computadores

Causas de tan importantes cambios:

– Exigencia de las aplicaciones

– Avances en la arquitectura de computadores

Después de cuatro décadas ha sido posible superar los 1000 millones de

La tecnología de los semiconductores ha alcanzado la barrera de los 45 nm y

¿Dónde está el límite? • Mechanical Computing

• Disipación de calor • Electronic Computing

• Coste • Optical Computing

Intel canceló el desarrollo del Pentium 4 de alta velocidad

Por Agencias [15-10-2004]

Aumentamos cuadráticamente el número de transistores/cm2

• Tamaño del átomo de Silicio

Cómo se fabrica un chip

¿Son necesarios computadores más potentes?

• Estudio de fenómenos reales

• Experimentos reales son:

• Modelado mediante computador

•Tecnología •Arquitectura •Aplicaciones

•Adaptado de Vajapeyam/Valero (Computer, Abril 2001)

Multiprocesadores versus cluster

• There are 3 ways to improve performance:

Clasificación de los computadores (Flynn)

Basada en el número de unidades de control y el número de elementos

– SI único flujo de instrucciones (single instruction stream)

SISD SIMD MISD MIMD

Desde el punto de vista de la memoria

SISD SIMD MISD MIMD

UMA COMA NUMA

Arquitectura de memoria compartida

Procesador Procesador Procesador Procesador

Caches Caches Caches Caches

Memoria principal Sistema de E/S

 La comunicación, compartición y sincronización se hace mediante operaciones. Load/Store de

SISD SIMD MISD MIMD

UMA COMA NUMA MPP NOW

Memoria compartida Paso de mensajes

Procesador Procesador Procesador

Caches Caches Caches

Memoria E/S Memoria E/S Memoria E/S

Arquitectura de paso de mensajes

Proc. Proc. Proc. Proc. Proc. Proc.

Caches Caches Caches Caches Caches Caches

Red de interconexión Red de interconexión

Memoria E/S Memoria E/S

Red de interconexión (Cluster)

1950 Univac-1 1 Kflops (103 flop/seg)

1 Mflops 1 Megaflops 106 Flops

Multiprocesadores versus cluster

that c omes from vi ewing

that c omes from vi ewing

that c omes from vi ewing