Clase 1 - Introducción A Hadoop

Pontificia Universidad Católica de Chile
Escuela de Ingeniería
Departamento de Ciencia de la Computación
Ecosistema Hadoop
Clase 1: Introducción a Hadoop
Profesor: Hans Löbel

Big Data requiere un paradigma distinto: SW y HW
↑ Procesamiento
↑ Almacenamiento
¡Enfoques tradicionales ya no sirven!

2
Big Data requiere un paradigma distinto: SW y HW
3
¿Cómo era un supercomputador hace 30 años?
• Procesamiento centralizado.
• Pocas CPUs.
• Procesamiento paralelo a costa
de hardware especializado y
caro.
• Foco en alto throughput.
• Problemas requerían pocos
datos: almacenamiento y
transferencia no eran problema.
4
¿Cómo era un supercomputador hace 30 años?
• Cray-2: lanzado en 1995.

• Fue el supercomputador más
rápido del mundo hasta 1990.
• 8 CPUs.
• Máx. throughput: 1.9 GigaFlops.
5
¿Cómo son los supercomputadores en la actualidad?
6
• Procesamiento distribuido (clusters)

basado en hardware de menor costo
(commodity hardware).
• Miles de nodos, CPUS y núcleos.
• Procesamiento altamente paralelo.
• Foco en alto throughput, escalabilidad
y robustez.
• Problemas requieren muchos datos:
almacenamiento y transferencia son
un problema.
7
• Tianhe-2: lanzado en 2013.

• Más rápido del mundo hasta
mediados de 2016.
• Máx. throughput: 33.86 PetaFlops.
• 16K nodos, 88 GB RAM cada uno.
• Más de 3M de núcleos y 1375 TB
de RAM.
8
Tendencia los últimos años parece clara
• Cambiar procesamiento centralizado por

distribuido.
• Cambiar hardware caro y especializado por
commodity hardware.
9
Este cambio genera 2 grandes “problemas”
• Almacenamiento y comunicación: cómo almacenar

y procesar grandes volúmenes de datos a la mayor
velocidad posible.
• Escalabilidad y robustez: como aumentar la
capacidad de un sistema de manera barata, sin
sufrir pérdidas de información.
10
El problema de Big Data resumido
Procesamiento Almacenamiento Comunicación
Commodity hardware altamente distribuido
11
12
¿Cuáles son entonces las condiciones actuales?
Procesamiento
• Clusters construidos de commodity hardware barato y poderoso.
• Problemas con la confiabilidad del hardware: ¿si un computador falla
una vez cada 3 años, qué pasa con 50K?
Almacenamiento
• Clusters permiten disponer de gran capacidad de almacenamiento,
incrementable de manera lineal.
• Almacenamiento de datos no puede ser relacional.
• Confiabilidad del hardware es más importante aún.
Comunicación
• Limitante física infranqueable en la actualidad.
• Además de lentas, las redes pueden saturarse fácilmente.
13
La solución: Apache Hadoop
Hadoop es una plataforma de software open source para el

almacenamiento y procesamiento de grandes volúmenes de
datos, en cluster construidos a partir de commodity
hardware.
14
Hadoop tiene dos componentes principales:

• Sistema de archivos distribuido Hadoop Distributed File
System (HDFS).
• Modelo de programación y procesamiento distribuido
MapReduce.
15
Hadoop entrega 3 grandes beneficios:

• Eficiencia: Permite el procesamiento de grandes volúmenes de
datos en tiempos razonables.
• Escalabilidad: para aumentar la capacidad, basta con agregar
más máquinas.
• Confiabilidad: tolerancia a fallas está integrada desde la base.
16
¿Cómo genera Hadoop estos beneficios?
17
18
19
20
21
22
¿Cómo genera Hadoop estos beneficios?
• Hadoop se aprovecha del concepto de localidad de

los datos.
• HDFS y MapReduce colaboran para replicar los
datos y permitir la ejecución de las tareas en la
misma máquina donde se ubican estos.
• Esto permite evitar demora en la transferencia, la
congestión en las redes y ser resistente a las fallas.
23
Además…
• Dado que no la escalabilidad y eficiencia son altas,

podemos guardar todos los datos sin sufrir por el
espacio o tiempo de proceso.
• Esto abre nuevas posibilidades para el
procesamiento de datos sin filtrar o no
estructurados (Schema on read).
• Intuición principal: es mejor tener más datos con
modelos simples que pocos datos con modelos más
complejos.
24
Es mejor tener más datos con modelos simples,
que pocos datos con modelos complejos.
25
26
27
28
29
30
31
32
33
¿Quién usa Hadoop?
34
35
36
¿Qué sigue ahora en adelante?
• Tarea 1: Instalación de máquina virtual de Cloudera.

• Próximo miércoles 12/10: HDFS.
• Lunes 17/10: MapReduce.
37
Pontificia Universidad Católica de Chile
Escuela de Ingeniería
Departamento de Ciencia de la Computación
Ecosistema Hadoop
Introducción a Hadoop
Profesor: Hans Löbel

Clase 1 - Introducción A Hadoop

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Clase 1 - Introducción A Hadoop

Hochgeladen von

Copyright:

Verfügbare Formate

Pontificia Universidad Católica de Chile

Profesor: Hans Löbel

¡Enfoques tradicionales ya no sirven!

• Cray-2: lanzado en 1995.

• Procesamiento distribuido (clusters)

• Tianhe-2: lanzado en 2013.

• Cambiar procesamiento centralizado por

• Almacenamiento y comunicación: cómo almacenar

Procesamiento Almacenamiento Comunicación

Commodity hardware altamente distribuido

Hadoop es una plataforma de software open source para el

Hadoop tiene dos componentes principales:

Hadoop entrega 3 grandes beneficios:

• Hadoop se aprovecha del concepto de localidad de

• Dado que no la escalabilidad y eficiencia son altas,

• Tarea 1: Instalación de máquina virtual de Cloudera.

Profesor: Hans Löbel

Das könnte Ihnen auch gefallen