Ingeniería en Sistemas Computacionales

INGENIERA EN SISTEMAS COMPUTACIONALES
ARQUITECTURA DE COMPUTADORAS ll
UNIDAD ll

I NTEGRANTES DEL EQUI PO:

PROFESOR:
Dr. ROLANDO PALACI OS ORTEGA

HORARI O:
LUNES - J UEVES 11:00 12:00

JOSE MIGUEL SANCHEZ GONZALEZ 09320807
ANGELO CASTRO MEDINA 09320792

JAIRO MANUEL LOZANO MENDOZA 09320768

INDICE

RESUMEN.....................................................................................3
ABSTRACT....................................................................................4
INTRODUCCION.........................................................................5-6
ANTECEDENTES.........................................................................7-13
DESARROLLO TEORICO..............................................................14-24
DESARROLLO PRCTICO............................................................25-31
RESULTADOS...............................................................................32-34
CONCLUSIONES................................................................................35
BIBLIOGRAFIA...................................................................................36
GLOSARIO.....................................................................................36-37

RESUMEN
Para funcionar, una computadora lee instrucciones y datos. La velocidad a la que lee
datos y realiza clculos, viene determinada por la famosa frecuencia de funcionamiento
que puedes ver en cualquier folleto de un micro. Sin embargo, gracias a los avances
producidos en el diseo de la arquitectura, las prestaciones cada vez dependen menos
de esa frecuencia de funcionamiento.
La arquitectura de computadoras es el diseo conceptual y la estructura operacional
fundamental de un sistema de computadora. Es decir, es un modelo y una descripcin
funcional de los requerimientos y las implementaciones de diseo para varias partes de
una computadora, con especial inters en la forma en que la unidad central de proceso
(UCP) trabaja internamente y accede a las direcciones de memoria.

ABSTRAC
Matrix multiplication is a very common operation in science and engineering,
however, its computational cost is high, so it is necessary to have alternatives for
the implementation of this task efficiently reducing the processing time is very
important in various applications. This paper presents architecture for parallel
matrix multiplication on a FPGA device. Presented design uses an array of
processing elements which perform the matrix multiplication.
The performance objective is to determine the effectiveness of a complete system
of hardware and software, the performance has a decisive role in the purchase of a
computer, it is difficult to measure the performance because there is no single
metric that encompasses all parameters of a system complex, the performance of
a computer application dependent. The CPU execution time is the time that the
CPU performs an entire task (context switches, I / S. Our goal is to understand how
the various elements of a computer affect the overall system performance and
meet the different performance measure. Programs to assess performance are test
programs (benchmarks) consist of real applications, discounted benchmarks,
synthetic benchmarks, kernels (Linpack), etc.
There is no generally accepted method for measuring single performance. The
most reliable mechanism is to produce a set of different measures. The problem of
summarizing the results in a single value arises.

INTRODUCCION
Las matrices se utilizan en el clculo numrico en la resolucin de sistemas de
ecuaciones lineales, de las ecuaciones diferenciales y de las derivadas parciales.
Adems de su utilidad para el estudio de sistemas de ecuaciones lineales, las
matrices aparecen de forma natural en geometra, estadstica, economa,
informtica, fsica, entre otras. El problema tiene una estructura simple y un
conjunto de propiedades bien definido porlo cual es utilizado como benchmark
para computadoras paralelas.
Dentro del mbito computacional, existen varios enfoques para atacar el problema
que se tiene para multiplicar matrices de dimensiones grandes, donde
principalmente, se busca reducir el tiempo de cmputo empleado. Los algoritmos
propuestos en la literatura, buscan aprovechar el paralelismo inherente en el
problema: se puede realizar la multiplicacin en un tiempo menor si se aprovecha
la localidad temporal de los coeficientes de ambas matrices.
El problema de la multiplicacin de matrices tiene un orden de complejidad de O
(n3), sin embargo, puede reducirse aplicando otras tcnicas como el algoritmo de
Strassen logrando una complejidad de O (n2.7).
Qu es un benchmark?
Un benchmark es un conjunto de procedimientos (programas de computacin)
para evaluar el rendimiento de un ordenador. Hay cuatro categoras generales de
pruebas de comparacin:
pruebas de aplicaciones-base: las ejecuta y las cronometra.
pruebas playback: las cuales usan llamadas al sistema durante actividades
especificas de una aplicacin y las ejecuta aisladamente.
prueba sinttica: la cual enlaza actividades de la aplicacin en subsistemas
especficos.
prueba de inspeccin: la cual no intenta imitar la actividad de la aplicacin,
sino que las ejecuta directamente en los subsistemas especficos.
Un benchmark mide el rendimiento de la unidad central de procesos. Factores que
influyen en el benchmarking:
tipo y versin del sistema operativo.
compilador, versin y directivas de compilacin.
lenguaje de programacin.
libreras.
ante memoria.
verificacin de ejecucin correcta del bench.
Errores ms comunes:
representar en la carga del test solo comportamientos medios.
controlar de manera inadecuada el nivel de carga.
ignorar los efectos de la cache.
ignorar la sobrecarga introducida en la monitorizacin.
no validar las medidas.
almacenar muchos datos pero realizar poco anlisis.
Descripcin de algunos benchmarks:
1. linpack: usados para sistemas cientficos y de ingeniera, resuelven
sistemas densos de ecuaciones en coma flotante y de las libreras de
algebra.
2. BYTE, PCW, EDN; propuestos por estas publicaciones, suelen ser
pequeos, las operaciones que realizan suelen ser variadas (funcin de
ackermann, criba, floatest, FITO, etc.).
3. SSBA1.21E: paquete para evaluacin de sistemas UNIX. Testean los
siguientes aspectos:
potencia de CPU.
implementacin del sistema en general.
compiladores de C y fortran.
manejo de memoria y rendimiento de cache.
rendimiento multiusuario frente a tareas significativas, etc.
Los test de aplicaciones base entregan la mejor forma de medir el rendimiento
completo de el sistema en el mundo real.

ANTECEDENTES
La ejecucin paralela de algoritmos es una materia que afecta a casi todos los
campos de investigacin y desarrollo de la informtica actual. Algunas de las
arquitecturas de mayor rendimiento son los procesadores matriciales, los sistemas
multiprocesadores, las matrices de frente de onda (wave-frontarrays) y las
matrices sistlicas (sistolicarrays). Por matrices sistlicas entenderemos
estructuras de Elementos de Proceso (EP) con una disposicin celular y con un
flujo de datos encauzado. La transmisin de datos se realiza de forma sncrona
entre los diversos EP, al contrario de los wave-frontarrays, cuyo flujo de
informacin es asncrono. Las matrices sistlicas toman su nombre del cierto
parecido que tiene el flujo de informacin entre los diversos EPs de la red celular
con el flujo sanguneo. Cada golpe de reloj se asemeja a un latido en el que la
informacin fluye de celda a celda.

RENDIMIENTO DEL CPU
La mayora de las computadoras se construyen utilizando un reloj que funciona a
una frecuencia constante. Estos eventos discretos de tiempo se denominan
pulsos, pulsos de reloj, perodos de reloj, relojes, ciclos o ciclos de reloj.
Los diseadores de computadoras referencian el tiempo de un perodo de reloj por
su duracin (por ejemplo, 10 ns) o por su frecuencia (por ejemplo, 100 MHz). El
tiempo de CPU para un programa puede expresarse entonces de dos formas:

En esta ltima expresin queda claro que el diseador de hardware puede mejorar
el rendimiento disminuyendo la duracin del ciclo de reloj o el nmero de ciclos de
reloj requeridos por un programa.

CICLOS POR INSTRUCCIN (CPI)
Adems del nmero de ciclos de reloj para ejecutar un programa, tambin se
puede contar el nmero de instrucciones ejecutadas - la longitud del camino de
instrucciones o el recuento de instrucciones (IC, instructioncount). Si se conoce el
nmero de ciclos de reloj y el recuento de instrucciones, es posible calcular el
nmero medio de ciclos de reloj por instruccin (CPI).
Esta medida del rendimiento del CPU proporciona una nueva percepcin en
diferentes estilos de repertorios de instrucciones e implementaciones. Al
transponer el IC en la frmula anterior, los ciclos de reloj pueden definirse como
ICxCPI. Esto permite utilizar al CPI en la frmula del tiempo de ejecucin:

Como demuestra esta frmula, el rendimiento del CPU depende de tres
caractersticas: ciclo de reloj (o frecuencia), ciclos de reloj por instruccin (CPI), y
recuento de instrucciones (IC). No se puede cambiar ninguna de ellas sin tener en
cuenta las dems, ya que las tecnologas bsicas involucradas al cambiar una
caracterstica tambin son interdependientes:

MIPS Y ERRORES DE UTILIZACIN
Hasta el momento se ha visto que la nica medida fiable y consistente del
rendimiento es el tiempo de ejecucin de los programas reales, en esta seccin se
analizan otras alternativas al tiempo, propuestas como mtricas para los
programas reales, que presentndose como items medidos han conducido,
eventualmente, a afirmaciones errneas o incluso a errores en el diseo de las
computadoras.
Una de estas alternativas son los MIPS, o millones de instrucciones por segundo.
Para un programa dado, los MIPS son sencillamente

Algunos encuentran adecuada la frmula de ms a la derecha, ya que la
frecuencia de reloj es fija para una mquina y el CPI, habitualmente, es un nmero
pequeo, de forma distinta a la cuenta de instrucciones o al tiempo de ejecucin.
La relacin de los MIPS con el tiempo es:

Como los MIPS son una frecuencia de operaciones por unidad de tiempo, el
rendimiento puede especificarse como el inverso del tiempo de ejecucin, de
forma que mquinas ms rpidas tendrn una mayor frecuencia de MIPS.

MFLOPS Y ERRORES DE UTILIZACIN
Otra alternativa popular al tiempo de ejecucin son los millones de operaciones en
punto flotante por segundo, abreviadamente megaFLOPS o MFLOPS, pero
siempre pronunciado megaflops. La frmula de los MFLOPS es simplemente la
definicin del acrnimo:

Evidentemente, una estimacin en MFLOPS depende de la mquina y del
programa. Como los MFLOPS se pensaron para medir el rendimiento en punto
flotante, no son aplicables fuera de ese rango. Como ejemplo extremo, los
compiladores, tienen una estimacin de MFLOPS prxima a cero sin que importe
lo rpida que sea la mquina, ya que raramente utilizan aritmtica en punto
flotante. El trmino MFLOPS est basado en las operaciones en lugar de las
instrucciones, y se pens para que fuera una comparacin buena entre diferentes
mquinas. La creencia es que el mismo programa corriendo en computadoras
diferentes debe ejecutar un nmero diferente de instrucciones, pero el mismo
nmero de operaciones en punto flotante.

EFICIENCIA
Se refiere a la eficiencia temporal. Se expresa como el porcentaje de tiempo en
que la CPU se mantiene ocupada haciendo trabajo til . Por trabajo til se
entiende la ejecucin de cdigo de los programas (y de los servicios solicitados
por stos). Cabe esperar que un sistema multiprogramado sea mucho ms
eficiente que uno mono programado, ya que en stos la CPU est ociosa cuando
en programa espera por una operacin de E/S pudiendo haber programas
esperando a ejecutarse, por lo que ese tiempo contar como tiempo perdido.

PRODUCTIVIDAD (THROUGHPUT)
En lo que respecta a la gestin de procesos, mide el nmero de programas que se
ejecutan por unidad de tiempo. Incluye otras muchas caractersticas que afectan el
rendimiento del sistema, como por ejemplo la velocidad del procesador, que habr
que compensar si se comparan mquinas con distinto hardware.

TIEMPO DE FINALIZACIN
Considera el rendimiento del sistema desde el punto de vista del programa que se
ejecuta. Globalmente, se puede expresar como el tiempo desde que se solicita la
ejecucin de un programa hasta que sta finaliza. Es una medida vlida para
sistemas batch. Lo denotaremos tf
TIEMPO DE ESPERA
Mide exclusivamente los tiempos totales de espera de un proceso en la cola de
preparados, tw, eliminando la dependencia de la duracin del propio programa.
Depende en cierta medida, sin embargo, del nmero de veces que ste se
bloquea.
Debe tenerse en cuenta la siguiente relacin entre tiempos: si tCPU es el tiempo
que pasa el proceso en la CPU y t bloq es el tiempo total que el proceso est
bloqueado, entonces.

ARQUITECTURA DEL PROCESADOR MATRICIAL.
La arquitectura hardware se compone por una matriz de elementos
procesadores(EPs), en la que cada uno se encarga de calcular el elemento Cij de
la matriz resultante. Cada EP realiza la multiplicacin de un solo rengln de la
matriz A con una sola columna de la matriz B.

Fig. Malla de EP para realizar la multiplicacin de matrices.
Para multiplicar matrices de dimensiones mxk y kxn se requieren de mxn
elementos de procesamiento interconectados en forma de malla y or
enados en filas de n en n EP.

ELEMENTO PROCESADOR
El EP es bsicamente un multiplicador acumulador. Recibe 2 datos de 8 bits, los
multiplica, suma el producto al resultado previo (inicialmente, ese resultado previo
es cero) y enva los datos de entrada a los EPs vecinos.
Cada elemento procesador realiza solo k multiplicaciones (tanto el vector rengln
como el vector columna son de tamao k). Despus de estas k multiplicaciones,
en el registro Acc de cada EP almacena el valor del coeficiente resultante de la
matriz Cij.

Fig. Diagrama general del elemento procesador.

ASIGNACIN DE COEFICIENTES A LA MATRIZ DE EPS.
Los coeficientes de la matriz A entran a la malla de EPs a travs de la primera
columna (EP11, EP21, EP31, ... , EPm1), los coeficientes de la matriz B entran a
la malla por el primer rengln de la malla de EPs (EP11, EP12, EP13, ..., EP1n).

Fig. Flujo de coeficientes en un elemento procesador.
La asignacin de renglones a la primera columna de EPs se realiza con un
retraso de un coeficiente entre renglones. Lo mismo ocurre con la asignacin de
columnas en la primera fila de EPs. Cada vez que llega un coeficiente k nuevo al
EPij, se realiza la multiplicacin y suma al acumulador propagando los datos a los
siguiente EPs.

EJEMPLO: RENDIMIENTO RELATIVO.
Una mquina A ejecuta un programa en 10 segundos y una mquina B ejecuta el
mismo programa en 15, Cunto es ms rpida A que B?
Respuesta: Si A es n veces ms rpida que B significa que:

De manera que la razn de rendimiento es: 15/10 = 1.5, y A es por lo tanto, 1.5
veces ms rpida que B.

DESARROLLO TEORICO

Cuando se quieren comparar diferentes procesadores es necesario establecer el
criterio de medida que permita cuantificar los resultados de la comparacin. En
este sentido existen dos conceptos que conviene aclarar previamente: la unidad
de medida y el patrn de medida. El primero se refiere a la mtrica utilizada para
cuantificar la comparacin. Y el segundo a la carga de trabajo respecto a la que se
realiza la comparacin.
En esta prctica se determinan las prestaciones de una mquina con un
procesador CISC (Intel IA-32) mediante la ejecucin de un programa de prueba
intensivo de clculolinpack. Tambin se medir la influencia del compilador. Los
ndices escogidos van desde medidas independientes de la arquitectura
(MFLOPS) hasta ndices muy dependientes de la arquitectura/ implementacin
(CPI).
No siempre estos ndices tienen sentido, estn en contexto o son reproducibles.
Por ejemplo, para qu sirve saber la mxima velocidad a la que puede trabajar el
hardware, velocidad de pico1? Lo que importa en realidad es resolver problemas
en el menor tiempo y/o con la mxima precisin posible.
Una forma de medir la calidad del computador consiste en tomar medidas durante
la ejecucin de programas de prueba (benchmarks). Cualquier programa de
prueba puede orientarnos en la comparacin entre computadores si tenemos claro
que:
a) El compilador va a representar un papel importante, un hardware superior
puede ser la base de un computador mediocre si el compilador no es bueno.
b) Los resultados deben ser comparables y reproducibles: lista exhaustiva de
condiciones de contorno (KBytes de los distintos niveles de cache, MBytes de
memoria principal - DRAM-, prestaciones de disco y de bus, nivel de optimizacin
del compilador, nmero de procesos en la mquina, versin del sistema
operativo...).
En esta prctica se medirn distintos ndices de prestaciones del computador
(MIPS, MFLOPS, CPI...) ejecutando un pequeo programa ncleo (kernel).
Siempre teniendo en cuenta el tiempo de ejecucin medido, podrn obtenerse
ndices operaciones/tiempo (a partir del nmero de operaciones realizadas),
instrucciones/tiempo (a partir del nmero de instrucciones ejecutadas) ...
Linpack (Linear Algebra Package) es un programa de prueba muy utilizado para
medir la potencia del computador en un mbito de clculo vectorial en coma
flotante. El programa deprueba Linpack inicializa una matriz y un vector con datos
aleatorios, realiza una descomposicin triangular superior/inferior -L/U- mediante
eliminacin Gaussiana con pivotado parcial, sustituye y finalmente verifica la
respuesta.
Existen variantes en el tamao del sistema (matriz 100x100 1000x1000) y en la
precisin de las variables (simple, 4 bytes o doble, 8 bytes). La resolucin del
sistema implica (2n3)/3 + o(n2) operaciones. La mayora de estas operaciones se
deben al bucle ms interno, que resta un mltiplo de la fila pivote a cada fila de la
submatriz implicada. Por tanto, y para simplificar el anlisis del programa,
podemos experimentar tan slo con ese bucle ms interno sin alterar las
conclusiones.
La tabla siguiente muestra los resultados de un benchmark para algunos
computadores corriendo bajo un sistema operativo y utilizando un compilador
concreto. La primera columna numrica presenta el resultado en Mflops/segundo,
es decir, en millones de operaciones en punto flotante por segundo para una
matriz de orden 100.

CARACTERSTICAS DE LOS COMPUTADORES
PENTIUMS SALA L0.01
Decodifica hasta 3 instr. por ciclo, 2 UFs de punto flotante
Arquitectura: IA-32 (Intel Arquitecture 32 bits)
Memoria principal: 256 MB DRAM

CPU: 1 Intel(R) Pentium(R) 4 CPU 2.60C GHz
Puede lanzar a ejecutar 1 instruccin SSE2 por ciclo, lo que supone un pico de
dos operaciones de coma flotante de doble precisin (64 bits) o cuatro de simple
precisin (32 bits) por ciclo.5
Arquitectura: IA-32 (Intel Arquitecture 32 bits)
Memoria principal: 512 MB RAM DDR-400
Disco duro: 1 disco IDE de 40GB, 7200rpm: ST340014A
Sistema Operativo: MS-DOS y Windows NT

Cmo resumir el rendimiento?

Podemos decir:
A es 10 veces ms rpido que B para el programa 1
B es 10 veces ms rpido que B para el programa 2
A es 20 veces ms rpido que C para el programa 1
C es 50 veces ms rpido que A para el programa 2
B es 2 veces ms rpido que C para el programa 1
C es 5 veces ms rpido que B para el programa.
Cmo resumir el rendimiento? Tiempo Total de Ejecucin

La mquina C es la ms rpida de las tres.

El procesador Intel Atom N270 (nombre en clave Diamondville mvil) es una
tecnologa de 45 nanmetros proceso y es la primera generacin de bajo consumo
de energa con micro-arquitectura IA-32 diseados especialmente para la
plataforma Netbook'08. En esta plataforma, el procesador compatible relaciona el
chipset Intel 45GSE con el Controlador de I / O Intel 82801GBM.

Procesador Intel Atom |
Produccin: | 2008 |
Fabricante: | Intel |
Velocidad de CPU: | 800 MHz a 2.0 GHz |
Velocidad de FSB: | 533 y 667 MT/s |
Procesos:
(Longitud de canal del MOSFET) | 0.045 m |
Conjunto de instrucciones: | x86, x86-64 |
Socket: | 441-ball FCBGA |
Nombre de ncleo: | Silverthorne/Diamondville

Arquitectura:

Los Intel Atom pueden ejecutar hasta dos instrucciones por ciclo. El rendimiento
de un Atom de ncleo nico es igual a, aproximadamente, la mitad de un Celeron
equivalente. Por ejemplo, el Atom N270, que se puede encontrar en muchos
netbooks, puede proporcionar alrededor de 3300 MIPS y 2.1 GFLOPS en bancos
de pruebas estndar,[1] en comparacin con los 7400 MIPS y 3.9 GFLOPS de un
Pentium M 740 con una frecuencia de reloj similar (1.73 GHz). Los Atom
implementan el conjunto de instrucciones x86 (IA-32); hasta el momento, el x86-64
est activado slo para los Atom 230 y 330. Como muchos otros
microprocesadores x86, antes de la ejecucin traduce las operaciones x86 a
operaciones internas ms simples (micro-ops). La mayora de las instrucciones
producen una nica micro-op cuando son traducidas, siendo aproximadamente un
4% micro-ops mltiples. El nmero de instrucciones que producen ms de una
micro-op es significativamente menor que en las arquitecturas P6 y NetBurst.
En el Atom, las -ops internas pueden contener tanto carga como almacenamiento
de memora en relacin con una operacin de la ALU, siendo ms parecidas al
nivel x86 y ms potentes que las usadas en diseos previos.
Esto permite un rendimiento relativamente bueno con slo dos ALUs de enteros, y
sin ningn reordenamiento de las instrucciones, ejecucin especulativa o cambio
de nombre de registros. Atom, por tanto, representa una resurreccin parcial de
los principios usados en anteriores diseos de Intel, tales como el Intel P5 y el
i486, con el nico propsito de mejorar el rendimiento por watio. Sin embargo, el
ElHyper-Threading est implementado como un modo sencillo (es decir, de bajo
consumo) de emplear ambos pipelines eficientemente al evitar las tpicas
dependencias de un nico hilo de ejecucin.

Se anuncian los primeros procesadores Intel Atom, con el fin de habilitar una
nueva generacin de dispositivos complementarios potentes y eficaces en el
consumo de energa para acceder a Internet. | Intel anuncia el nuevo procesador
Intel Atom CE4100 de 45 nm que proporciona el innovador SoC a una familia de
procesadores de medios para dispositivos electrnicos de consumo, diseados
para la TV interactiva. | Intel anuncia su nuevo procesador Intel Atom, que integra
un controlador de memoria y tecnologa de grficos en la CPU. Gracias a ello, se
reduce el consumo de energa y se aumenta el desempeo en los sistemas ms
pequeos. | Los procesadores Intel Atom ms recientes logran reducir de manera
extraordinaria el consumo de energa, a la par que mantienen el desempeo y
permiten crear formatos delgados e innovadores, tales como tablets, laptops y
smartphones

CARACTERSTICAS PRINCIPALES
La lista siguiente proporciona algunas de las principales caractersticas de este
procesador:

* Nuevo ncleo de procesador solo para dispositivos mviles.
* Cuenta con 32 kB de instrucciones de cach y 24 kB de cach de datos del
write-back
* 533 MHz de bus frontal de la fuente-sncrona (FSB)
* 2-Hilos de apoyo
* En el chip de 512 KB, la cach L2 es de 8 vas
* Soporte de gestin trmica a travs de Intel Thermal Monitor 1 e Intel trmica
Monitor 2
* Reversin de enrutamiento flexible FSB Lane
* Soporta C0/C1 (e) / C2 (e) / C4 (e)
* Cach L2 tamao dinmico

CARACTERSTICAS DE LA ENERGA BAJA
Reloj de control y los Estados de baja potencia
El procesador es compatible con los estados de baja energa en el nivel de hilo y
el nivel de paquete. Un hilo de forma independiente puede entrar en el
C1/AutoHALT, C1/MWAIT, C2, C3, C4 y baja estados de energa. Cuando los dos
hilos estn en un estado comn de baja potencia la lgica de administracin de
energa del procesador central asegura que todo entra en el paquete
correspondiente estado de baja potencia, iniciando una P_LVLx (P_LVL2 y
P_LVL3) E / S leer para el chipset.
Reloj FSB (BCLK [01:00]) y el reloj procesador
El reloj BCLK [01:00] controla directamente la velocidad de interfaz de FSB, as
como la frecuencia de la base de el procesador. Al igual que en los procesadores
de la generacin anterior, la frecuencia del ncleo de procesador es un mltiplo de
la frecuencia BCLK [01:00]. El procesador utiliza un diferencial que registra
la implementacin.
Identificacin de tensin
El procesador utiliza siete pines de identificacin de voltaje (VID [06:00]) para el
apoyo automtico de seleccin de tensiones de alimentacin. Los pines VID para
el procesador son salidas CMOS impulsadas por los circuitos VID del procesador.

Todas las seales CMOS estn obligadas a hacerse valer por ms de 5 BCLKs
para que el procesador las reconozca.
Procesador de pines de salida de asignacin
Las soluciones trmicas no diseadas para proporcionar este nivel de capacidad
trmica pueden afectar la fiabilidad a largo plazo del procesador y del sistema.
Los intentos de utilizar el procesador fuera de estos lmites de operacin pueden
dar lugar a daos permanentes en el procesador y otros componentes
potencialmente en el sistema.
El procesador incorpora tres mtodos de control de la temperatura fra: la Digital
del sensor trmico, monitor termal de Intel, y el diodo trmico.
El procesador Intel del Monitor trmico debe ser utilizado para determinar cuando
el mximo de la temperatura especificada del procesador unin se ha alcanzado.

La arquitectura Intel ATOM est constituida de 20 a 24 pines.
Arquitectura del procesador Intel Atom N270

Intel Atom N270 es un procesador de un solo ncleo con frecuencia de reloj de 1,6
GHz nominales. Destinados a la energa baja, delgada y cuadernos pequeos que
requieren pequeas para poder procesar la moderada Atom N270 soporta
Hyperthreading que ayuda un poco en el entorno multihilo.
En cuanto a la arquitectura del procesador Atom N270, el Atom N270 no tiene el
controlador de memoria integrado. Se comunic con el North Bridge (que Intel
llama concentrador controlador de memoria) con el Front Side Bus, FSB. La
velocidad del bus frontal de 533 MHz es. El Frente comunica lado del autobs con
la memoria. En otras palabras, no hay un controlador de memoria integrado en el
procesador. La falta del controlador de memoria integrado ralentiza el procesador
de velocidad de memoria de la comunicacin y reduce el rendimiento global del
procesador.
Las generaciones previas de procesadores Intel integrados podran no ser
compatibles actualmente con Intel. Consulte la gua completa de chipsets y
procesadores integrados para obtener informacin sobre productos respaldados
por la asistencia para ciclo de vida ampliado de 7 aos de Intel.
Descripcin general
El procesador de un solo ncleo basado en la tecnologa de 45 nm, con una
velocidad de ncleo de 1,6 GHz y una energa de diseo trmico de 2,5 W, ha sido
optimizado en cuanto al consumo de energa para ofrecer un slido desempeo
por watt. Esta plataforma ofrece buenas capacidades de E/S, grficos 3D de 32
bits y admite la memoria DDR2.
Tecnologa Intel Hyper-Threading: Aumenta la capacidad de respuesta del
sistema en entornos de tareas mltiples
Consumo optimizado: Admite la tecnologa Intel SpeedStep mejorada,
estados de suspensin con bajo consumo de energa (C1E, C2E, C4E) y
dimensin dinmica de la cach L2.
Extensiones Intel Streaming SIMD (Intel SSE)2 e Intel SSE3: Posibilita el
procesamiento de datos en decodificacin de video/aritmtica compleja

DIAGRAMA DE BLOQUE INTERACTIVO

Este diagrama de bloque proporciona una descripcin de las funciones,
prestaciones y conectividad dentro de la plataforma de procesador Intel indicada.
El procesador single-core basado en la tecnologa de 45 nm, con una velocidad de
ncleo de 1,6 GHz y una potencia de diseo trmico (TDP) de 2,5 W, ha sido
optimizado en cuanto al consumo de energa para ofrecer un slido desempeo
por vatio. Esta plataforma ofrece buenas capacidades de E/S, grficos 3D de 32
bits y compatibilidad con memoria DDR2, lo que la convierte en la opcin ideal
para muchos segmentos del mercado de los sistemas integrados.

Fabricado con tecnologa de 45 nm, el procesador Intel Atom N270 tiene un TDP
de 2,5 vatios. La baja calificacin TDP ayuda en el diseo de computadoras
porttiles delgadas. El Atom N270 es compatible con la tecnologa Intel
SpeedStep. La tecnologa SpeedStep interruptores de voltaje interno de
procesador y la frecuencia en conjunto entre los niveles alto y bajo en respuesta al
cambio en el requisito de potencia de procesamiento.
El Atom N220 cabe en PBGA437 toma de medir 2,2 cm x 2,2 cm. El tamao de la
pastilla es de 26 milmetros cuadrados y cuenta con 47 millones de transistores.
Algunas de las otras caractersticas del Atom N270 incluyen soporte para las
instrucciones multimedia SSE2, SSE3 y SSSE4. El Atom N270 no es compatible
con el procesador Intel VirtualizationTechnology (VT-x).

Resultados de referencia con el procesador Atom 270

stos son algunos de los resultados rpidos benchmarking para el Atom N270
Super Pi 1M puntuacin 93 segundos
Super Pi 2M de puntuacin 212 segundos
Windows 7 procesador ndice de Experiencia 2
Obviamente, el procesador Atom N270 tiene un rendimiento relativamente bajo.
Ms recientes procesadores de ultra bajo voltaje y doble ncleo tienen mejores
niveles de rendimiento.
Algunos de los cuadernos que nos encontramos, equipados con Intel Atom N270
incluyen
- Acer Aspire One AOA150-1572
- Acer Aspire AOA150-1570
- Asus 1005HA-MU17-BK 10.1 Netbook

Desventajas Procesador Atom N270
No es capaz de manejar con soltura las aplicaciones que se utilizan
habitualmente.
Pongamos por ejemplo: un procesador de texto, software de creacin de pginas
web, algn programa de retoque fotogrfico, ms dos o tres instancias de un
navegador corriendo casi permanentemente. De hecho lo habitual es que tenga
casi todos esos programas abiertos de forma simultnea.
El procesador Atom no es un prodigio de potencia, pues no ha sido pensado para
ello, pero de momento cumple con las expectativas sin problemas.
Si bien es cierto que de tanto en tanto se puede llegar a notar algn tirn cuando
se tienen abiertos a la vez varios programas que consumen bastante, algn
momento en que parece que se queda atascado y que al procesador le cuesta,
tambin es verdad que no llegan a resultar molestos: uno o dos segundos
mientras carga lo que necesite.
Pero no nos engaemos, el Atom no es un Frmula 1. Y si alguien pensaba cargar
juegos, mejor que lo deje estar.
En resumen: para aquellos usuarios que busquen potencia de clculo sta no ser
su mquina, mientras que para aquellos que trabajamos todo el da colgados de
Internet y movemos el ordenador de aqu para all, resulta del todo adecuado.
Los Intel Atom son los ltimos microprocesadores de Intel. Su uso est algo
limitado debido a que estn diseados para mantener un bajsimo consumo y una
potencia media.
Los nuevos Intel Atom son los que antes conocamos como codenameSilverthorne
y Diamondville, procesadores de arquitectura x86 fabricados en 45 nanmetros
con los transistores ms pequeos del mundo, segn rezan desde Intel, llegando a
la friolera de 47 millones de transistores en una superficie de 25 milmetros
cuadrados.
Estado Launched
Fecha de lanzamiento Q2'08
Nmero de procesador N270
Cantidad de ncleos 1
Veloc. reloj 1.6 GHz
Cach L2 512 KB
Velocidad FSB 533 MHz
Paridad FSB No
Conjunto de instrucciones 32-bit
Extensiones de conjunto de instrucciones SSE2, SSE3, SSSE4
Opciones integradas disponibles Yes
Litografa 45 nm
Mximo de TDP 2,5 W
Rango de voltaje VID 0.9V-1.1625V

DESARROLLO PRCTICO
En esta prctica utilizamos este tipo de procesador solo con esta mquina para
que las prximas prcticas tengamos que probarlas con otras mquinas y
comparar su rendimiento de cada una y poder as llegar a una conclusin de que
maquina podra ser ms rpido.
Los LINPACK referencia son una medida de un sistema de punto flotante
de potencia de clculo. Introducido por Jack Dongarra , miden la velocidad de una
computadora resuelve un denso n por n sistema de ecuaciones lineales Ax = b ,
que es una tarea comn en la ingeniera .
El objetivo es aproximar la rapidez con un equipo llevar a cabo en la resolucin
de problemas reales. Es una simplificacin, ya que no es una tarea computacional
sola puede reflejar el rendimiento global de un sistema informtico. Sin embargo,
el rendimiento del ndice de referencia Linpack puede proporcionar una buena
correccin sobre el mximo rendimiento proporcionado por el fabricante. El
mximo rendimiento es el rendimiento mximo terico de una computadora puede
lograr, calculado como la frecuencia de la mquina, en ciclos por segundo, veces
el nmero de operaciones por ciclo que puede realizar. El rendimiento real
siempre ser menor que el mximo rendimiento. El rendimiento de un equipo es
un asunto complejo que depende de muchas variables interconectadas. El
rendimiento se mide por el ndice de referencia Linpack consiste en el nmero de
operaciones de punto flotante de 64 bits, por lo general las adiciones y
multiplicaciones, un ordenador puede realizar por segundo, tambin conocido
como FLOPS . Sin embargo, el rendimiento de una computadora cuando se
ejecutan aplicaciones reales es probable que sea muy por detrs del rendimiento
mximo se logra ejecutar el benchmarkLinpack apropiado. El nombre de estos
puntos de referencia proviene de la LINPACK paquete, una coleccin de
lgebra Fortran subrutinas ampliamente utilizados en los aos 80, y en un principio
estrechamente vinculado a la marca de referencia Linpack. El LINPACK paquete
ha sido desde entonces sustituidos por otras bibliotecas.
LINPACK 100 es muy similar a la del ndice de referencia original publicada en
1979 junto con las instrucciones de los usuarios LINPACK . La solucin se obtiene
mediante la eliminacin gaussiana con pivoteo parcial , con operaciones 2/3n +
2n punto flotante donde n es 100, el orden de la matriz densa Una que define el
problema. Su pequeo tamao y la falta de flexibilidad del software no permite que
la mayora de las computadoras modernas para llegar a sus lmites de
rendimiento. Sin embargo, todava puede ser til para predecir resultados en
cdigo escrito por el usuario numricamente intensiva utilizando optimizacin del
compilador.

LINPACK 1000 puede proporcionar un rendimiento cercano al lmite de la
mquina, ya que, adems de ofrecer un tamao mayor problema, una matriz de
orden 1000, son posibles los cambios en el algoritmo. Las nicas limitaciones son
que la precisin relativa no puede ser reducido y el nmero de operaciones
siempre se considera que 2/3n + 2n, con n = 1000.
El benchmarkLinpack, que implica la solucin de un sistema lineal 100 por 100 de
las ecuaciones, que una vez fue el punto de referencia estndar de la industria
para medir el rendimiento en computacin cientfica.LINPACK y otros cinco puntos
de referencia utilizados para medir el rendimiento computacional y megaflops: la
combinacin debucles y la asignacin de matriz usando ceros, para completar la
factorizacin triangular de una matriz de 167-por-167, la solucin de un escaso
sistema de ecuaciones lineales, que mide la velocidad de los grficos poligonales
de relleno, y la medicin de la velocidad de los grficos de lnea de dibujo.
Tiempos de ejecucin de referencia para una variedad de computadoras
disponibles en 1994-incluyendo un PC con un procesador Intel de chip 486DX2,
funcionando a 66 MHz-se incluyen.

Para el programa utilizamos nuestra primera interfaz grfica de usuario la cual es
la siguiente de acuerdo a que el usuario pueda utilizarla sin ningn problema.

La siguiente imagen es una muestra ms de la interfaz de nuestro programa:

El cdigo utilizado para este nuestro programa es sencillo y fcil de entender ya
que es el mismo que nos proporcion el doctor para poder realizar la prctica en
unos archivos.
CODIGO PARA LA DIVICIN
function calcula1_Callback(hObject, eventdata, handles)
campo = get(handles.matriz,'String');
n = str2num(campo);
A = randn(n,n);
b = randn(n,n);
tic;
x =A/b;
t = toc;
m = (2/3*n^3 + 2*n^2)/t/1.e6;
set(handles.tiempo,'String',t);
set(handles.mflops,'String',m);
bar3(handles.axes2,t,'blue');
ylabel(handles.axes2,'Tiempo(Seg)');
bar3(handles.axes3,m,'red');
ylabel(handles.axes3,'Mflops');
set(handles.status,'String','Divisinfinalizada');

CODIGO PARA LA MULTIPLICACIN
function calcula2_Callback(hObject, eventdata, handles)
campo = get(handles.matriz,'String');
n = str2num(campo);
A = randn(n,n);
b = randn(n,n);
tic;
x =A*b;
t = toc;
m = (2/3*n^3 + 2*n^2)/t/1.e6;
set(handles.tiempo2,'String',t);
set(handles.mflops2,'String',m);
bar3(handles.axes4,t,'blue');
ylabel(handles.axes4,'Tiempo(Seg)');
bar3(handles.axes5,m,'red');
ylabel(handles.axes5,'Mflops');
set(handles.status,'String','Multiplicacin finalizada');

RESULTADOS
En el programa contamos tambin con ventanas de ayuda como se muestra en la
figura.

Al igual que se nos muestra en las grficas del rendimiento de nuestra
computadora en nuestro programa las comparamos con nuestro administrador de
tarea que tenemos en la mquina. Y vemos el rendimiento que las dos grficas.

CONCLUSIONES
Hoy en da es necesario conocer el rendimiento y las prestaciones de nuestro
equipo computacional, ya que as conoceremos en perodo de obsolescencia del
mismo y como se comporta el sistema en distintas tareas, entre las cuales pueden
estar la resolucin de problemas matemticos, el procesamiento de grficos e
incluso su rendimiento ante los video juegos de alta exigencia, tanto por parte del
procesador, como de los dems componentes.
Un Benchmark, es un programa que mide las prestaciones de un ordenador, o de
una parte del mismo. Los benchmarks tienen habitualmente el objetivo de
comparar diferentes ordenadores, perifricos y redes, a la hora de adquirir o
ampliar un sistema determinado. Pueden servir tambin para sintonizar y planificar
la carga de un sistema, identificando los problemas de un sistema mediante la
forma como se ejecuta una prueba determinada.
La razn de la popularidad de los benchmarks se debe a que la gente quiere que
sus computadoras duren el mayor tiempo posible; es por esto que se busca
adquirir equipos que tengan el mayor rendimiento posible.
Los benchmarks son capaces de realizar las pruebas de performance orientadas
hacia las distintas partes del computador, tales como: Disco duro, Tarjeta grfica,
Memoria, Procesador, Chipset y tambin a todo el sistema en general.

Cuando se miden las prestaciones de un computador, especficamente el
procesador, se toman en cuenta las siguientes consideraciones:

Independientemente de las aplicaciones utilizadas, la mayor parte del trabajo
recae sobre el procesador.
El rendimiento del equipo se ve notablemente mejorado, cuando se cambia el
procesador por uno ms grande.
En aplicaciones 3D, el trabajo no recae sobre el procesador, sino sobre el
procesador de la tarjeta de aceleracin grfica 3D.

Actualmente existen en el mercado una gran cantidad de benchmarks disponibles,
solo es cuestin de saber elegir las prestaciones que nos interesan, para as poder
seleccionar el benchmark que mejor se ajuste a nuestras necesidades.

Rendimiento Linpack es altamente sensible a rendimiento del procesador de punto
flotante de vector, quedepende en gran medida del nmero de ncleos de
procesador y la frecuencia de reloj del procesador, el procesador con la frecuencia
de reloj ms alta generalmente gana. En un entorno de clster de suel rendimiento
es algo sensible al rendimiento de la red, sino que la sensibilidad disminuye a
medida que elaumenta el tamao del problema. El punto de referencia es menos
sensible al tamao de la cach, y casi completamenteinsensible al rendimiento de
la memoria.
Los parmetros de ajuste de referencia son fundamentales para mostrar un buen
rendimiento. P y Q deben estartan cerca como sea posible igual, pero cuando no
son iguales , P debe ser inferior a P ( P multiplicapor Q da el nmero de procesos
de MPI para ser utilizado . ) NB debe ser un mltiplo entero de veces PQ, y N
debe ser un mltiplo entero de NB. Los valores de NB entre 100 y 256 parecen
hacerlo bien, pero si los valores por encima de 256 lo harn mejor o peor requiere
mayor investigacin. Parmetros que cumplan los criterios anteriores
generalmente se desempean mejor que aquellos que no lo hacen, pero encontrar
la mejorcombinacin entre aquellos que lo hacen, sobre todo la bsqueda de la
mejor relacin calidad- NB, requiere una amplia experimentacin.

BIBLIOGRAFIA

http://www.monografias.com/trabajos/benchmark/benchmark.shtml.
METRICS Int. Conf. Measurement and Modeling of Computer Systems,
Madison, Wisconsin, June 22-26, 1998, pp. 151160.
hpl-calculator.sourceforge.net/HPL-HowTo.pdf
software.intel.com ... IntelMath Kernel Library
www.ibm.com/developerworks/library/l.../index.htm..
rravikumar.wordpress.com/2012/01/23/hpl/
www.rocksclusters.org/rocks.../running-linpack.html

GLOSARIO

MIPS: millones de instrucciones por segundo.
MFLOPS: millon de operaciones coma flotante /sg. Son operaciones
realizables por hardware. Suelen medirse con programas que son mezclas
de sumas y multiplicaciones.
MWIPS: medidas propias de benchmarck como el whetstone y el dhrystone
(mega whestone instrucciones por segundoo) o los DIPS.
Benchmark: Programa utilizado para medir o comparar el rendimiento de un
computador o parte del mismo frente a pruebas simuladas.
Chipset: Conjunto (set) de chips que se encargan de controlar
determinadas funciones del ordenador, como la forma en que interacciona
el microprocesador con la memoria o la cach, o el control de los puertos y
slots ISA, PCI, AGP, USB, etc.
Cdec: Hardware que puede convertir seales de audio o vdeo de formato
analgico a digital y viceversa (codificador y descodificador); hardware o
software que puede comprimir y descomprimir datos de audio o vdeo
(compresin y descompresin); o la combinacin de codificador,
descodificador, compresin y descompresin. Normalmente, un cdec
comprime datos digitales sin comprimir para que ocupen menos memoria.
Compresin: Proceso de reducir el volumen de los datos e incrementar las
velocidades de transferencia de datos usando un algoritmo matemtico, el
cual analiza grupos de bits y codifica las secuencias de datos repetitivas.
DirectX: Extensin del sistema operativo Microsoft Windows.
La tecnologa DirectX sirve para que los juegos y otros programas utilicen
las capacidades multimedia avanzadas del hardware.
DivX: Popular formato de video, debido a su gran calidad y a su formato
comprimido.
Encriptamiento: Proceso de camuflar un mensaje o datos de forma que se
oculte su contenido.
jPEG/JPG: Esquema de compresin multimedia creado por el Grupo Unido
de Expertos en fotografa.
MPEG/MPG: Conjunto de estndares para la compresin de audio y vdeo
establecido por la Comisin tcnica mixta sobre ISO/IEC para las
tecnologas de la informacin. Las diferentes especificaciones (o capas)
de MPEG se disearon para utilizarse en diferentes situaciones. Por
ejemplo, MPEG Audio Layer 3 (Capa de audio MPEG 3), o MP3, utiliza la
codificacin de audio perceptible para comprimir el sonido con calidad
de CD.
Performance: Se refiere al rendimiento de un dispositivo o sistema
computacional, desde el punto de vista del benchmarking.
WAVE: Formato de archivo de audio utilizado por el Windows Media Player.
WM Encoder: Programa capaz de convertir de un formato de audio y video
nativo al formato de Windows Media mediante sus herramientas de
codificacin. Necesario para algunas pruebas del PCMark04.

Ingeniería en Sistemas Computacionales

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Ingeniería en Sistemas Computacionales

Hochgeladen von

Copyright:

Verfügbare Formate

INGENIERA EN SISTEMAS COMPUTACIONALES

Das könnte Ihnen auch gefallen