Sie sind auf Seite 1von 58

Big

Data
By: Victor Ascue Morales

Outline
Introduccin: La revolucin de los Datos
Y cmo exploto toda esta informacin?:
Apache Hadoop

La revolucion de los datos


Para alcanzar a comprender lo que es big data,
empecemos por las bases:
el bit es la unidad mnima de almacenamiento

bit
1 bit = 0.0000000012 m = 12 atomos
posibles valores 0 1
En 1cm2 se pueden llegar a meter 1.5 Tb
1cm2 = 12,000,000,000,000 bits

nibble
1 nibble = 4 bits
16 combinaciones
Se usa para representar un
carcter hexadecimal

byte
1 byte = 8 bits
256 combinaciones
Es posible expresar cualquier carcter
alfabtico en un byte.
Hagan la prueba guardando un archivo de
texto con una sola letra. Pesar 1 byte.
ASCII, UTF-8

Palabra
Depende del procesador
Y eso para qu sirve?
El procesador solo procesa palabras enteras,
es decir por cada ciclo de reloj desplaza esa
informacin.

Ms all del kilo, mega, giga, tera ...


Claro que hay ms all del Tera, y es
importante que alguien que trabaje con Big
Data no se asuste de escuchar unidades
estratosfricas ...
kilo
1x103
mega 1x106
giga
1x109
tera
1x1012
Cuales siguen?

peta
1x1015
exa
1x1018
zetta 1x1021
yotta 1x1024
xona o hella (
weka 1x1030
vunda 1x1033
uda
1x1036
treda 1x1039

"hell of a lot [of],"

) 1x1027

y siguen ...
sorta 1x1042
rinta
1x1045
quexa 1x1048
pepta 1x1051
ocha 1x1054
nena 1x1057
minga 1x1060
luma 1x1063
se acabaron los nombres pero ...

continan los numerales


Undecillion
1x1066
Undecilliarde 1x1069
Googol
1x10100
Sexvigintillion 1x10156
Zentillion
1x10600
Googolplex
1x10Googol
Googolplexplex 1x10Googolplex
Googolplexplexplex 1x10Googolplexplex

tabla

...bytes y ...bits
Es muy comn confundir un GB con un Gb (
Gbit).
Si en su casa tienen conexin de 1Mbps
Quiere decir que fluyen
1,000,000 bits por segundo, es decir
1,000,000 / 8 = 125,000 bytes por segundo
Por lo que la velocidad mxima de descarga
ser de:
125 KB/s

cifras, cifras y ms cifras


Cada 5 minutos se genera 1 exabyte de datos
= 1,000,000,000,000,000,000 bytes

Tendencias de la Industria
EXPLOSIN
DE DATOS

CONSUMERIZACIN DE
TI

Los datos digitales crecern

NUBE PBLICA Y
PRIIVADA

44x prxima

dcada

En 2015, servicios de nube pblica tendrn

46%

de crecimiento neto en gasto de TI

Nuevos roles:
Big Data, Data Science y lo que nos

pueden proporcionar
Actores de mercado en Big Data: Data
Scientist
Utilidades de Big Data: personalizacion,
customer behaviour, market intelligence

Qu es Big Data?
Big data Consists of datasets that grow so
large that they become awkward to work with
using on-hand DB Management tools.
Wikipedia

Big data is when the size of the data itself


becomes part of the problem
Mike Lukides, OReilly Radar
Its not just your Big Data problems, its all
about your BIG data Problems.
Alexander Stojanovic, Hadoop Manager on Win
Azure

Las 4 Vs
Volumen
Velocidad
Variedad
Variabilidad

Ejemplos de Big Data


12
Tb
da

21 Pb
Hadoop
cluster

7 Pb
mes

1 Tb

7 Tb

tweets/dia

datos/dia

75
Million

4 Billion

scores/day

14 Tb
Hadoop
cluster

Graph edg/day

El GRAN acelerador de Hadrones !


Por muchos considerado el mayor invento de la
humanidad, el que podra ocasionar que el
universo se colapse .la particula de Dios...
Genera ya por todos sus sensores
500 exabytes diarios de informacin
= 500,000,000,000,000,000,000 bytes

Y los gobiernos ? .
El gobierno de Estados Unidos almacena la
informacin de todos sus ciudadanos en el
NSA (National Security Agency) de Utah en un
data center con una capacidad de 5 Zettabytes
= 5,000,000,000,000,000,000,000 bytes

y.... los negocios?

y.... Qu hacemos con tanta


informacin?
Minarla .
As como los mineros encuentran piedras
preciosas entre taaanta tierra, en el caso de los
datos es lo mismo, intentar encontrar patrones
que ayuden a tomar decisiones es un arte.

y. Cmo empezamos?
Bueno primero es importante tener espacio de
almacenamiento. Recuerda que no todas las
computadoras soportan discos duros de ms
de 2TB.
El MBR (Master Boot Record) tiene un lmite de
2TB y se necesita usar GPT (GUID Partition
Table) y debe soportar un tipo de BIOS llamado
UEFI (Unified Extensible Firmware Interface).

y Cunta informacin necesito?


No hay un mnimo de tamao, bases de datos
de Megas, Gigas, Teras, etc pueden ser
evaluadas con herramientas de Big Data.

y Qu se usa?
Las bases de datos tradicionales tienen
algunos lmites, por ejemplo:
MySQL soporta hasta 4GB en discos duros
FAT o hasta 2TB en discos duros Windows
NTFS, Linux ext3 y Mac HFS+
Por lo que se usan herramientas especiales.

y Cules s soportan?
Los ms grandes del mercado son estos, pero
existen alternativas Open Source como por
ejemplo Hadoop o Cassandra.

Bases de datos que usan las


grandes empresas
Facebook:
Amazon:
Google:
Foursquare:
Twitter:
Wikipedia:
Ebay:
Yahoo:
Microsoft:

RocksDB
Dynamo
BigTable
MongoDB
Cassandra
MariaDB
BerkeleyDB
Oracle
SQL Server

Tecnologas de Big Data

Bases de datos relacionales


Permiten establecer interconexiones
(relaciones) entre los datos (que estn
guardados en tablas), y a travs de
dichas conexiones relacionar los datos
de ambas tablas

Tecnologas de Big Data

Bases de datos no relacionales


Los datos almacenados no requieren
estructuras fijas como tablas, no
garantizan completamente ACID
(atomicidad, coherencia, aislamiento y
durabilidad), y habitualmente escalan
bien horizontalmente.

Tecnologas de Big Data

NewSQL
Nace en el 2011 y trata de conseguir el
mismo rendimiento escalable de
sistemas no relacionales para el
procesamiento de transacciones en
lnea y garantiza el ACID de un sistema
de base de datos tradicional

Tecnologas de Big Data

NoSQL
No usan SQL como el principal
lenguaje de consultas. Las principales
compaas de Internet se dieron
cuenta que el rendimiento era ms
importantes que cuidar la coherencia.

Tecnologas de Big Data

Key Value
Relacionan una llave con un valor, este es el
principio fundamental que logra que consultas
se ejecuten instantneamente en bases de
datos de muy muy alta escala. Buscar en
bases de datos de quintillones de registros es
instantneo gracias a esto.

Funcionan mediante arreglos


En la programacin hay una estructura de
datos muy comn que se llaman arreglos, que
consiste en guardar varios valores en una
variable y se mandan llamar por su posicin.

Ejemplo de un arreglo
var arreglo = [];
arreglo[0] = Hola;
arreglo[1] = Amiga;
arreglo[2] = Sentada;
arreglo[3] = Atrs;

Extraigamos informacin
Si requerimos en valor de la casilla 1 hacemos
lo siguiente:
arreglo[1]
Y nos devuelve Amiga

Pasa lo mismo con textos


Pero se le suelen llamar mapas (ste es la
base de Big Data).
var mapa = {};
mapa[que] = Adios;
mapa[mal] = Amigo;
mapa[ejem] = Dormido;
mapa[plo] = Adelante;

Mandamos traer un registro


Si queremos traer el valor de la posicin ejem
entonces sera as:
mapa[ejem]
Y nos devolver:
Dormido

Qu es lo que hace?
Inmediatamente ubica la posicin de memoria
ya sea dependiendo de la posicin o trae el
registro directamente de una tabla de Hash que
genera internamente, lo que lo hace
instantaneo y no necesita buscar, solo lo trae.

Podemos guardar una tabla


Ahora podemos hacer esto
var tabla = {}
tabla[user1] =
{nombre:Anastasio,edad:120};
tabla[user2] = {nombre:Basaltar,edad:135};
tabla[user3] = {nombre:Malechor,edad:165};
tabla[user4] = {nombre:Matusalen,edad:15};

Y mandarla traer
Si queremos traer la informacin de user2 lo
llamamos as
tabla[user2]
y nos trae sus datos
{nombre:Basaltar,edad:135}

O pedir algunos datos


O podemos pedir solo algn dato
tabla[user2][nombre]
Y regresa:
Basaltar

As de sencillo funciona Big Data


De esta manera es como funciona el Map Reduce que es la base de Big Data.
Cuando profundizen en el tema veran que
hablan mucho de ello, eso que explicamos es
lo que es.

BigTable
Como mencionamos, las grandes empresas
como Google necesitan velocidad en sus
bsquedas y no podan perder tiempo
buscando en miles de tablas, por lo que todo lo
pusieron en una sola, con miles y miles de
columnas, de ah naci BigTable.
Esta tabla gigante no tiene porque estar en
una sola computadora, puede estar distribuida
en una granja de servidores.

Todo en una tabla?


Y la entidad relacion? Que paso? Se rompe
con los conceptos de normalizacin ya que la
misma informacin se repite muuuchas veces?
Es esto posible?
Si.
Pero recuerden que en BigData no importa que
tanto espacio ocupan las tablas, lo importante
es que sea instantneo. Es decir lo que
prevalece la busqueda..

Ejemplo
user_id

user_name

bank_name

bank_cash

group_name

faculty_name

dsf5ds6fds

Fracasio

BCP

teacher

FICS

dsf678sd6f

Germayoni

Scotia

244

teacher

FACC

d6s6fs7df6

Delfino

Interbank

44

student

FCM

sdf6s78f6s

Ruperto

Nacion

student

FCE

Hagamos una consulta


Las bsquedas son por llave valor, ejemplo
{user_id:dsf678sd6f}
Y nos regresa:
[
{user_id:dsf678sd6f,user_name:Germayoni,bank_name:Scotia,bank_cash:244,
group_name:teacher,school_name:FACC}
]

Ahora por otro registro


Las bsquedas son por llave valor, ejemplo
{group_name:teacher}
Y nos regresa 2 registros:
[
{user_id:dsf5ds6fds,user_name:Fracasio,bank_name:BCP,bank_cash:1,group_name:teacher,
school_name:FICS},
{user_id:dsf678sd6f,user_name:Germayoni,bank_name:Scotia,bank_cash:244,group_name:te
acher,school_name:FACC}
]

MongoDB
Cuenta con una versin estable desde el 2011.
Es una de las principales plataformas usadas
para Big Data debido a la escalabilidad, el uso
de NoSQL y el eficiente uso de llave-valor. Es
gratuita y de cdigo abierto.

Funciona exactamente como el


ejemplo
Hagamos el ejemplo en mongo
db.table.find({user_id:dsf678sd6f})
Y nos regresa exactamente lo mismo
[
{user_id:dsf678sd6f,user_name:Germayoni,bank_name:Benemex,bank_cash:244,
group_name:teacher,school_name:UNEM}
]

Cmo probarlo
Puedes descargar bases de datos pblicas
muy muy grandes desde aqu
http://www.valleyprogramming.com/blog/bigdata-datasets-large-examples-bouldercolorado-hadoop-mongodb

Prueba BigQuery de Google


BigQuery es una herramienta relacional de
gran escala que la puedes probar fcilmente
con bases de datos ya cargadas
https://developers.google.com/bigquery/

Prueba on line Hadoop


http://www.cloudera.com/content/cloudera/en/d
ownloads.html

Das könnte Ihnen auch gefallen