Beruflich Dokumente
Kultur Dokumente
Data
By: Victor Ascue Morales
Outline
Introduccin: La revolucin de los Datos
Y cmo exploto toda esta informacin?:
Apache Hadoop
bit
1 bit = 0.0000000012 m = 12 atomos
posibles valores 0 1
En 1cm2 se pueden llegar a meter 1.5 Tb
1cm2 = 12,000,000,000,000 bits
nibble
1 nibble = 4 bits
16 combinaciones
Se usa para representar un
carcter hexadecimal
byte
1 byte = 8 bits
256 combinaciones
Es posible expresar cualquier carcter
alfabtico en un byte.
Hagan la prueba guardando un archivo de
texto con una sola letra. Pesar 1 byte.
ASCII, UTF-8
Palabra
Depende del procesador
Y eso para qu sirve?
El procesador solo procesa palabras enteras,
es decir por cada ciclo de reloj desplaza esa
informacin.
peta
1x1015
exa
1x1018
zetta 1x1021
yotta 1x1024
xona o hella (
weka 1x1030
vunda 1x1033
uda
1x1036
treda 1x1039
) 1x1027
y siguen ...
sorta 1x1042
rinta
1x1045
quexa 1x1048
pepta 1x1051
ocha 1x1054
nena 1x1057
minga 1x1060
luma 1x1063
se acabaron los nombres pero ...
tabla
...bytes y ...bits
Es muy comn confundir un GB con un Gb (
Gbit).
Si en su casa tienen conexin de 1Mbps
Quiere decir que fluyen
1,000,000 bits por segundo, es decir
1,000,000 / 8 = 125,000 bytes por segundo
Por lo que la velocidad mxima de descarga
ser de:
125 KB/s
Tendencias de la Industria
EXPLOSIN
DE DATOS
CONSUMERIZACIN DE
TI
NUBE PBLICA Y
PRIIVADA
44x prxima
dcada
46%
Nuevos roles:
Big Data, Data Science y lo que nos
pueden proporcionar
Actores de mercado en Big Data: Data
Scientist
Utilidades de Big Data: personalizacion,
customer behaviour, market intelligence
Qu es Big Data?
Big data Consists of datasets that grow so
large that they become awkward to work with
using on-hand DB Management tools.
Wikipedia
Las 4 Vs
Volumen
Velocidad
Variedad
Variabilidad
21 Pb
Hadoop
cluster
7 Pb
mes
1 Tb
7 Tb
tweets/dia
datos/dia
75
Million
4 Billion
scores/day
14 Tb
Hadoop
cluster
Graph edg/day
Y los gobiernos ? .
El gobierno de Estados Unidos almacena la
informacin de todos sus ciudadanos en el
NSA (National Security Agency) de Utah en un
data center con una capacidad de 5 Zettabytes
= 5,000,000,000,000,000,000,000 bytes
y. Cmo empezamos?
Bueno primero es importante tener espacio de
almacenamiento. Recuerda que no todas las
computadoras soportan discos duros de ms
de 2TB.
El MBR (Master Boot Record) tiene un lmite de
2TB y se necesita usar GPT (GUID Partition
Table) y debe soportar un tipo de BIOS llamado
UEFI (Unified Extensible Firmware Interface).
y Qu se usa?
Las bases de datos tradicionales tienen
algunos lmites, por ejemplo:
MySQL soporta hasta 4GB en discos duros
FAT o hasta 2TB en discos duros Windows
NTFS, Linux ext3 y Mac HFS+
Por lo que se usan herramientas especiales.
y Cules s soportan?
Los ms grandes del mercado son estos, pero
existen alternativas Open Source como por
ejemplo Hadoop o Cassandra.
RocksDB
Dynamo
BigTable
MongoDB
Cassandra
MariaDB
BerkeleyDB
Oracle
SQL Server
NewSQL
Nace en el 2011 y trata de conseguir el
mismo rendimiento escalable de
sistemas no relacionales para el
procesamiento de transacciones en
lnea y garantiza el ACID de un sistema
de base de datos tradicional
NoSQL
No usan SQL como el principal
lenguaje de consultas. Las principales
compaas de Internet se dieron
cuenta que el rendimiento era ms
importantes que cuidar la coherencia.
Key Value
Relacionan una llave con un valor, este es el
principio fundamental que logra que consultas
se ejecuten instantneamente en bases de
datos de muy muy alta escala. Buscar en
bases de datos de quintillones de registros es
instantneo gracias a esto.
Ejemplo de un arreglo
var arreglo = [];
arreglo[0] = Hola;
arreglo[1] = Amiga;
arreglo[2] = Sentada;
arreglo[3] = Atrs;
Extraigamos informacin
Si requerimos en valor de la casilla 1 hacemos
lo siguiente:
arreglo[1]
Y nos devuelve Amiga
Qu es lo que hace?
Inmediatamente ubica la posicin de memoria
ya sea dependiendo de la posicin o trae el
registro directamente de una tabla de Hash que
genera internamente, lo que lo hace
instantaneo y no necesita buscar, solo lo trae.
Y mandarla traer
Si queremos traer la informacin de user2 lo
llamamos as
tabla[user2]
y nos trae sus datos
{nombre:Basaltar,edad:135}
BigTable
Como mencionamos, las grandes empresas
como Google necesitan velocidad en sus
bsquedas y no podan perder tiempo
buscando en miles de tablas, por lo que todo lo
pusieron en una sola, con miles y miles de
columnas, de ah naci BigTable.
Esta tabla gigante no tiene porque estar en
una sola computadora, puede estar distribuida
en una granja de servidores.
Ejemplo
user_id
user_name
bank_name
bank_cash
group_name
faculty_name
dsf5ds6fds
Fracasio
BCP
teacher
FICS
dsf678sd6f
Germayoni
Scotia
244
teacher
FACC
d6s6fs7df6
Delfino
Interbank
44
student
FCM
sdf6s78f6s
Ruperto
Nacion
student
FCE
MongoDB
Cuenta con una versin estable desde el 2011.
Es una de las principales plataformas usadas
para Big Data debido a la escalabilidad, el uso
de NoSQL y el eficiente uso de llave-valor. Es
gratuita y de cdigo abierto.
Cmo probarlo
Puedes descargar bases de datos pblicas
muy muy grandes desde aqu
http://www.valleyprogramming.com/blog/bigdata-datasets-large-examples-bouldercolorado-hadoop-mongodb