Beruflich Dokumente
Kultur Dokumente
Escuela de Ingeniería
Departamento de Ciencia de la Computación
Ecosistema Hadoop
Clase 1: Introducción a Hadoop
↑ Procesamiento
↑ Almacenamiento
3
¿Cómo era un supercomputador hace 30 años?
• Procesamiento centralizado.
• Pocas CPUs.
• Procesamiento paralelo a costa
de hardware especializado y
caro.
• Foco en alto throughput.
• Problemas requerían pocos
datos: almacenamiento y
transferencia no eran problema.
4
¿Cómo era un supercomputador hace 30 años?
5
¿Cómo son los supercomputadores en la actualidad?
6
¿Cómo son los supercomputadores en la actualidad?
7
¿Cómo son los supercomputadores en la actualidad?
8
Tendencia los últimos años parece clara
9
Este cambio genera 2 grandes “problemas”
10
El problema de Big Data resumido
11
12
¿Cuáles son entonces las condiciones actuales?
Procesamiento
• Clusters construidos de commodity hardware barato y poderoso.
• Problemas con la confiabilidad del hardware: ¿si un computador falla
una vez cada 3 años, qué pasa con 50K?
Almacenamiento
• Clusters permiten disponer de gran capacidad de almacenamiento,
incrementable de manera lineal.
• Almacenamiento de datos no puede ser relacional.
• Confiabilidad del hardware es más importante aún.
Comunicación
• Limitante física infranqueable en la actualidad.
• Además de lentas, las redes pueden saturarse fácilmente.
13
La solución: Apache Hadoop
14
La solución: Apache Hadoop
15
La solución: Apache Hadoop
17
18
19
20
21
22
¿Cómo genera Hadoop estos beneficios?
23
Además…
24
Es mejor tener más datos con modelos simples,
que pocos datos con modelos complejos.
25
26
27
28
29
30
31
32
33
¿Quién usa Hadoop?
34
35
36
¿Qué sigue ahora en adelante?
37
Pontificia Universidad Católica de Chile
Escuela de Ingeniería
Departamento de Ciencia de la Computación
Ecosistema Hadoop
Introducción a Hadoop