Beruflich Dokumente
Kultur Dokumente
• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster
1
Multiprocesadores vs Cluster
Mainframe
Work- PC
Mini-
station
computador
Supercomputador Mi i
Mini-
supercomputador
2
Evolución de los computadores
Mini- Mini-
supercomputador computador
Mainframe
Work PC
Work-
station
Supercomputador
3
Evolución de los computadores
– Cambios en la tecnología
– ...
4
Cambios en la tecnología
Ley de Moore:
El número de transistores que pueden ser incluidos en un circuito integrado
de silicio, y como consecuencia el poder computacional, se doblará cada 18-
24 meses.
De una u otra forma parece que se seguirá cumpliendo, incluso más allá de
esa fecha (¿ hasta el 2020 ?)
9
Cambios en la tecnología
• Procesador
– lógica:
ló i 30% por año
ñ
– frecuencia: 20% por año
• Memoria
– capacidad DRAM: 60% por año (x4 cada 3 años)
– velocidad: 10% año
– Coste por bit: 25% por año
10
5
Cambios en la tecnología
• Molecular Electronics
• Capacitancia
• DNA Computing
• Método de fabricación • Quantum Computing
Alternativas al silicio
11
• Intel ha cancelado sus planes para lanzar su chip más veloz para
computadora de escritorio, con lo que puso fin a una carrera de 25
años durante la cual las velocidades de los microprocesadores de Intel
aumentaron mas de 750 veces.
• Esta es la segunda vez que Intel revela problemas con su plan de subir
la velocidad del Pentium 4 a cuatro gigahertzios.
• El chip Pentium 4 de 3,8 gigahertzios se mantendrá como el más
rápido en el mercado en el futuro previsible.
previsible
• El fabricante ha trasladado sus recursos al proyecto "dual core",
orientado a producir chips que tengan el poder de dos
microprocesadores en uno solo.
12
6
Límites de la tecnología
• La potencia disipada es proporcionar a:
– Frecuencia
• Además cada vez se puede acceder a menos superficie del CI en un ciclo
de reloj.
– Voltaje2
• Área alimentada es proporcionar al Voltaje necesario
– Número de transistores
C d mejoramos
Cuando j la
l tecnología
l í ded integración
i ió
13
Evolución de la tecnología
14
7
Qué es tecnología de 32 nm?
15
16
8
Velocidad de la luz es un problema?
• Cual es el tamaño de un chip?
– En torno a 300 mm2
• Lado de 17 mm,
mm diagonal de 25 mm
• Cual es la velocidad de la luz?
– En el aire 2,99*108 m/sc o 2,99*1011 mm/sc
– Índice de refracción del Silicio es 3.875 mm/sc
– En el Silicio 0.77*1011 mm/sc
• Cual es la frecuencia de un Pentium IV?
– 3.8
3 8 GH
GHz, luego
l ell periodo 1/3 8*109 sc
i d es: 1/3.8*10
• Cual es la distancia que se recorre en un ciclo en Silicio?
– D = Periodo * c = 20,37 mm
17
18
9
Equilibrio entre factores
•Posibilidades
•Capacidades
•Promueve Prestaciones
•Posibilidades •Demanda
•Restricciones
•Nuevas
Nuevas Económicas
Restricciones •Generación
•Mercado
•Fundamental
•Fuerte
•Visible
19
• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster
20
10
How to Run Applications Faster ?
21
11
Actualmente se imponen los MIMD
Unidades ALUs y
de control registros
datos
instrucciones
datos
23
24
12
Tanenbaum
Multiprocesadores
CC-NUMA NC-NUMA
Stanford DASH CRAY T3E
Origin 2000
Memoria compartida 25
Red de interconexión
26
13
Arquitectura de memoria compartida
Pn
LOAD Direcciones
Físicas
Comunes
P2
STORE P1
P0
Espacio de
Direcciones
Compartido
Espacio de Direcciones
Direcciones Físicas
Pi d
Privado Diferentes
Tanenbaum
Multiprocesadores Multicomputadores
CC-NUMA NC-NUMA
Stanford DASH CRAY T3E
Origin 2000
14
Arquitectura de memoria distribuida
Red de interconexión
29
Dirección Y
Dirección X Espacio de
Espacio de
Direcciones Direcciones
Local Local
Proceso P Proceso Q
La combinación send-recv establece una copia memoria a memoria y una sincronización entre
los procesos involucrados
Enviar un mensaje consume mucho tiempo:
- Construir la cabecera del mensaje; copiar los datos en el buffer de la red; enviar el mensaje;
copiar los datos en el buffer receptor; copiar los datos del espacio S.O. al espacio usuario
30
15
Memoria compartida distribuida
Cluster de SMPs
31
Evolución en Supercomputación
32
16
Unidades de rendimiento
33
ASCI White
34
17
Earth Simulator
35
Blue Gene
36
18
Blue Gene
37
Blue Gene
38
19
Blue Gene
39
• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster
40
20
Arquitectura NOW-CLUSTER
1.10 Looking Ahead
1.10 Looking Ahead
1.10 Looking Ahead
1.10 Looking Ahead
41
¿Qué es un cluster?
21
Arquitectura típica de un cluster
43
44
22
Desventajas de los Cluster
45
• División de la memoria:
– Multiprocesadores
• Espacio de memoria compartido 1 sola copia S.O.
– Cluster
• N máquinas N memorias independientes + N copias S.O.
• Memoria disponible en un cluster es inferior
46
23
Ventajas de los cluster
47
– La red es fiable
– La latencia es cero
– El ancho de banda es infinito
– La red es segura
– Hay un solo administrador
– La topología no cambia
– El coste del transporte es nulo
– L redd es homogénea
La h é
– La red es estable
– Los recursos son infinitos
Peter Deutsch
48
24
Popularidad de los cluster
• Ventajas
– Bajo
B j coste
t
– Escalabilidad
– Tolerancia a fallos
– Facilidad de paralelización de aplicaciones con millones de
tareas independientes
Internet
• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster
50
25
TOP500
www.top500.org
51
52
26
Evolución del uso de las arquitecturas
53
54
27
Evolución del Rendimiento
6 - 7 años
55
Previsiones de futuro
56
28
Top500 Predicciones
– 1 United States
• BlueGene/L - eServer Blue Gene Solution
• IBM 131072 Proc., 2005 year, 280,6 Tf.
57
Predicciones de expertos
29
Fabricantes de Cluster
59
Fabricantes de Cluster
60
30
The number 1
61
TOP 10 - 2009
62
31
TOP10 - 2008
63
TOP10 - 2007
64
32
TOP10 - 2006
En 2009 está:
65
66
33
Arquitectura del procesador utilizado
67
Tecnología utilizada
68
34
Familia de procesadores utilizada
69
70
35
Procesadores
utilizados
71
por países
72
36
por continentes
73
74
37
en países por sistemas implantados
75
Interconexión
76
38
TOP de MPPs
81
77
TOP de Clusters
406 - 2007
410 – 2008
417 - 2009
78
39
Constellations en activo
79
Áreas de aplicación
80
40
Usuarios
81
Sistema Operativo
82
41
España 2008
84
España 2009
85
42
Marenostrum
86
Número de procesadores
87
43
Número de procesadores
88
Rendimiento/coste
89
44
Multiprocesadores versus cluster
• Introducción
• Clasificación de los computadores
• Cluster de computadores
• TOP500
• Componentes de un cluster
90
91
45
Componentes de un cluster
• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
92
Datos interesantes
46
¿qué evoluciona?
– Número transistores
• Se duplica
p cada 18-24 meses
– Capacidad de procesamiento de un CI
• 40-57 % anual
– Densidad de transistores
• 35 % anual
– Velocidad de los transistores
• 16 % anual
– Mejoras en la arquitectura
• 35 % anual
– Aumento área de dado
• 10-20 % anual
94
95
47
Número de transistores
96
•Many
Many--Core
•Dual
Dual--Core
•Hyper
Hyper--threading
•Standard core
97
48
Rendimiento a Través de “Multi-Cores”
•MULTI
MULTI--CORE
•Rendimientto
•Aquí estamos
•10X
•SINGLE CORE
•3X
•2000 •2004 •2009+
•Pronóstico
•Normalized Performance vs. Initial Intel® Pentium® 4 Processor
98
•Source: Intel
Multicore processor
99
49
Arquitectura de un dual-core
100
Multicore processors
50
Multicore processors
• Ventajas:
– La circuitería de la Coherencia de cache trabaja a más frecuencia
– Menos PCB que un SMP luego menos energía
– Menos energía luego menos calor
– Menos riesgos de error en el diseño
• Desventajas:
– Capacidad del SO de extraer suficientes threads
– Mejor
j uso del área en chips
p de único procesador
p
– Comparten el mismo BUS y ancho de banda de memoria
– Nuevo software con threads equilibrados
102
103
51
Intel multicore
• Posibilidades:
– Intel® Pentium® D
– Intel® Xeon®
– Intel® Itanium® 2
104
Arquitectura Xeon
105
52
Arquitectura Opteron AMD
106
Athlon 64 X2
107
53
Comparativa Opteron vs Xeon
108
Xeon vs Opteron
Configuración hardware utilizada
109
54
Consumo Xeon vs Opteron
110
Xeon vs Opteron
Máximo número de stream soportados
111
55
Rendimiento
112
Rendimiento
56
Rendimiento
Penryn
• Nuevo procesador de Intel dual-core y quad-core desarrollado con
tecnología de 45 nm. (Nov. 2007)
• Intel ha desarrollado una nueva generación de transistores en la que ha
añadido dos capas, conocidas como High-K y Metal gate.
• Estos micros cuentan con 410 millones de transistores, en su versión de
doble núcleo, y con 820 millones de transistores en su versión de cuatro
cores.
• Por su consumo apto para portátiles.
• AMD está en 45 nm y evolucionará a 32 nm a finales del 2010 e Intel
está ya en 32 nm
– AMD Opteron™ EE Quad-Core con tecnología 45 nm
– Intel Clarkdale con tecnología de 32 nm
115
57
Lo último de Intel
116
58
Futuro de Intel
Futuro de AMD
119
59
Futuro
120
60
Componentes de un cluster
• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
122
• Operating Systems
– 2 fundamental services for users
• make the computer hardware easier to use
– create a virtual machine that differs markedly from the real machine
• share hardware resources among users
– Processor - multitasking
– The new concept in OS services
• support multiple threads of control in a process itself
– parallelism within a process
– multithreading
– POSIX thread
h d iinterface
f iis a standard
d d programming
i environment
i
– Trend
• Modularity – MS Windows, IBM OS/2
• Microkernel – provide only essential OS services
– high level abstraction of OS portability
123
61
Sistema Operativo
124
Componentes de un cluster
• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
125
62
High Performance Networks/Switches
– Ethernet (10Mbps),
– Fast Ethernet (100Mbps),
( p)
– Gigabit Ethernet (1Gbps)
– SCI (Dolphin - MPI- 12micro-sec latency)
– ATM
– Myrinet (1.2Gbps)
– InfiniBand
– Digital Memory Channel
– FDDI
– Advanced Switching
– Quadrics…
126
63
High Speed Networks (II)
• ServerNet
– 1 Gbps
– originally, interconnection for high bandwidth I/O
• Myrinet
– programmable microcontroller
– 1.28 Gbps
• Memory Channel
– 800 Mbps
– virtual shared memory
– strict message ordering
• InfiniBand
– 30 Gbps (Useable Bandwidth 24 Gbps)
– 128 bits address
– VCT 128
• QsNetII
– Cada enlace bidireccional a: 1.3 GBytes/s.(2 c.v.)
– Soporta broadcast sobre conjuntos de nodos aparte de punto-a-punto.
– Los conmutadores utilizan encaminamiento fuente (permiten adaptativo).
– Utiliza control de flujo wormhole.
– Topología Fat tree
129
64
High Speed Networks
130
65
Componentes de un cluster
• Nodos
• P
Procesador
d
• Sistema Operativo
• Interconexión
• E/S
• Middleware
• Herramientas
• Aplicaciones
132
133
66
Cluster Middleware & SSI
• SSI
– Supported by a middleware layer that resides between the OS and user
user-level
level
environment
– Middleware consists of essentially 2 sublayers of SW infrastructure
• SSI infrastructure
– Glue together OSs on all nodes to offer unified access to system resources
• System availability infrastructure
– Enable cluster services such as checkpointing, automatic failover, recovery from
failure, & fault-tolerant support among all nodes of the cluster
“Designing SSI cluster with hierarchical checkpoint and single I/O space”
Kai Hwang, IEEE Concurrency, vol 7 JAN-MARCH, 1999.
134
Evolution
Cluster
MPP
Sist. distribuido
SSI
135
67
SSI Boundaries -- an applications SSI
boundary
Batch System
SSI
Boundary
136
137
68
Single System Image Benefits (Cont’d)
69
SSI Support Services
141
70
Resource Management and Scheduling (RMS)
• RMS is the act of distributing applications among computers to maximize their throughput
• Enable the effective and efficient utilization of the resources available
• Software components
– Resource manager
• Locating and allocating computational resource, authentication, process creation and migration
– Resource scheduler
• Queueing applications, resource location and assignment
• Reasons using RMS
– Provide an increased, and reliable, throughput of user applications on the systems
– Load balancing
– Utilizing spare CPU cycles
– Providing fault tolerant systems
– Manage access to powerful system, etc
• Basic architecture of RMS: client-server system
142
• Process Migration
– Computational resource has become too heavily loaded
– Fault tolerant concern
• Checkpointing
• Scavenging Idle Cycles
– 70% to 90% of the time most workstations are idle
• Fault Tolerance
• Minimization of Impact on Users
• Load Balancing
• p Application
Multiple pp Queues
Q
143
71
Some Popular
Resource Management Systems
Project Commercial Systems - URL
LSF http://www.platform.com/
CODINE http://www.genias.de/products/codine/tech_desc.html
Easy-LL http://www.tc.cornell.edu/UserDoc/SP/LL12/Easy/
NQE http://www.cray.com/products/software/nqe/
GNQS http://www.gnqs.org/
DQS http://www.scri.fsu.edu/~pasko/dqs.html
PRM http://gost.isi.edu/gost-group/products/prm/
PBS http://pbs.mrj.com/
144
145
72
Programming Environments and Tools (II)
146
147
73
Programming Environments and Tools (IV)
148
149
74
Programming Environments and Tools (V)
TotalView
• http://www.totalviewtech.com/
151
75
Performance Analysis
and Visualization Tools
Tool Supports URL
AIMS Instrumentation, monitoring library, http://science.nas.nasa.gov/Software/AIMS
analysis
l i
152
Multiprocesadores vs Cluster
• Multiprocesadores • Cluster
– Precio/procesador
p medio – Precio/procesador bajo
– Comunicaciones basadas en – Comunicaciones basadas en
hardware software
– Bus de memoria – Bus de E/S
– Comunicaciones intensivas – Comunicaciones medias
– Granularidad Fina – Granularidad Gruesa
– Escalabilidad media – Escalabilidad Alta
– Disponibilidad
p media – Disponibilidad alta
– Fiabilidad media – Fiabilidad alta
– 1 copia S.O. – N copias del S.O.
– Costes de administración bajos – Costes de administración altos
– Paralelización de tareas – Paralelización de tareas
dependientes independientes
– Mayores prestaciones 153
76
Computación en Cluster de Computadores
154
Bibliografía
155
77
Bibliografía
156
157
78