Beruflich Dokumente
Kultur Dokumente
PARALELO U
ALUMNA:
PROYECTO INTEGRADOR 10
AO 2016-2017
Qu es Big Data?
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas. El presente artculo tiene
como propsito introducir al lector en el concepto de Big Data y describir algunas
caractersticas de los componentes principales que constituyen una solucin de este tipo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco, entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el planeta.
Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5 billones para
el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos conectados a la red
a escala mundial, esto conllevara a que el trfico global de datos mviles alcance 10.8
Exabytes mensuales o 130 Exabytes anuales. Este volumen de trfico previsto para 2016
equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a mquina
(M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades de datos
tambin es muy importante. Sensores digitales instalados en contenedores para
determinar la ruta generada durante una entrega de algn paquete y que esta informacin
sea enviada a las compaas de transportacin, sensores en medidores elctricos para
determinar el consumo de energa a intervalos regulares para que sea enviada esta
informacin a las compaas del sector energtico. Se estima que hay ms de 30 millones
de sensores interconectados en distintos sectores como automotriz, transportacin,
industrial, servicios, comercial, etc. y se espera que este nmero crezca en un 30%
anualmente.
Qu tipos de datos debo explorar?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificacin nos ayudara a entender mejor su representacin, aunque es muy probable
que estas categoras puedan extenderse con el avance tecnolgico.
1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de voz,
correos electrnicos, documentos electrnicos, estudios mdicos, etc.
Las organizaciones han atacado esta problemtica desde diferentes ngulos. Todas esas
montaas de informacin han generado un costo potencial al no descubrir el gran valor
asociado. Desde luego, el ngulo correcto que actualmente tiene el liderazgo en trminos
de popularidad para analizar enormes cantidades de informacin es la plataforma de
cdigo abierto Hadoop.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS.
Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena en
un diferente rack para lograr redundancia.
(web)
Apache Hadoop
Es robusto, pues ante un mal funcionamiento del hardware puede superar tales
situaciones sin mayor inconveniente.
Tiene la ventaja de poder ser escalable, lo que indica que permite crecer o agregar nodos
al clster con relativa facilidad; por ejemplo, ante la forma vertiginosa como crecen las
redes sociales, permite agregar ms nodos con facilidad.
Es simple, por lo que permite a los usuarios escribir cdigo con eficiencia, para software
distribuido.
Hadoop tiene sus inicios como un subproyecto de Nutch, que era a su vez un subproyecto
de Apache Lucene; es una indexacin de texto y de bsqueda bibliogrfica, es decir,
permite realizar bsquedas dentro de documentos. Nutch es un proyecto ms ambicioso
que Apache Lucene, lo que se busca es disear un motor de bsqueda para la web, el cual
contiene analizador para HTML, un rastreador web, una base de datos de link-grfica y
otros componentes adicionales necesarios.
Hoy en da, Hadoop muestra ventajas significativas frente a bases de datos SQL
(Structured Query Language), que se presentan como un diseo para el manejo de
informacin estructurada, donde los datos residen en tablas relacionales que tienen una
estructura definida, pues fue diseado para informacin no estructurada o
semiestructurada, como documentos de texto, imgenes y archivos.
Permitir procesar archivos con tamaos de gigabytes (GB) hasta petabytes (PB).
Poder leer datos a grandes velocidades.
Capacidad para ser ejecutado en una mquina, sin solicitar hardware especial.
La arquitectura de HDFS est compuesta por un nodo principal (NameNode) y varios
nodos esclavos (DataNodes).
El nodo principal es el servidor maestro, dedicado a gestionar el espacio del nombre de
los archivos y controlar el acceso de los diferentes archivos de usuarios; adems, el nodo
maestro se encarga de gestionar las operaciones de abrir, cerrar, mover, nombrar y
renombrar archivos y directorios.
Los nodos esclavos (DataNodes), como su nombre lo indica, representan los esclavos de
la arquitectura HDFS. En un HDFS pueden existir miles de nodos esclavos y decenas de
miles de clientes HDFS por clster; esto se debe a que cada nodo esclavo puede ejecutar
mltiples tareas de aplicaciones de forma simultnea. La funcin del nodo esclavo es la
de gestionar tanto la lectura como la escritura de los archivos de los usuarios, y realizar
la replicacin de acuerdo a como lo indique el nodo maestro (NameNode) [21].
Hadoop MapReduce: Hadoop MapReduce es un marco de software creado con el fin de
hacer aplicaciones que puedan procesar grandes cantidades de datos de forma paralela,
en un mismo hardware. Cuando los datos entran para ser procesados se dividen de manera
independiente, para su procesamiento, es decir, de manera distribuida en diferente
hardware que exista. MapReduce est compuesto de un maestro, llamado JobTracker, y
un esclavo, TaskTracker, por cada nodo. El primero se encarga de programar las tareas,
los componentes que manejan el esclavo, y ste ejecuta las tareas segn las indicaciones
del maestro.
Clave Valor
1 Nombre: Julio; Apellidos: Ros; Nacionalidad: espaola
2 Nombre: Mara; Apellidos: Gutirrez Castro;
Nacionalidad: colombiana; Edad: 30
3 Nombre: Petra; Nacionalidad: italiana
A. DynamoDB
DynamoDB fue desarrollada y probada de manera interna en Amazon; guarda muy fcil
y econmicamente cualquier cantidad de informacin. Los datos son almacenados en
unidades de estado slido SSD (Solid State Drive), las cuales permiten mayor velocidad
a la hora de encontrar la informacin, pues estas unidades funcionan de manera diferente
a como lo hace el disco duro del computador [40]. Con el uso de SSD se tiene un
excelente rendimiento, mayor fiabilidad y un alto grado de seguridad de los datos.
B. Cassandra
Proyecto iniciado por Facebook; es del tipo cdigo abierto (Open Source). Se puede decir
que despus de la implementacin de Cassandra, las redes sociales se dispararon en
popularidad.Es una base de datos distribuida, y almacena los datos en forma de
clavevalor; fue desarrollada en java, adems, hoy en da es usada en la red social Twitter.
Otras caractersticas importantes de Cassandra es que es descentralizada, lo que significa
que cada nodo es idntico, y, adems, que no existe ningn punto nico de fallo; que es
escalable, es decir, que el software puede atender un nmero mayor de solicitudes de los
usuarios sin que se note algn tipo de degradacin en su rendimiento, y que es tolerante
a fallos, es decir, que puede reemplazar nodos que fallen en el clster sin perder tiempo.
C. Voldemort
Voldemort fue creada por LinkedIn, con el fin de solucionar los problemas de
escalabilidad que tenan las bases de datos relacionales; los datos los almacena en forma
de clave-valor; es de ambiente distribuido, los datos se replican automticamente en los
diferentes nodos o servidores, donde cada nodo es independiente de los dems; permite
con cierta facilidad la expansin del clster, sin necesidad de reequilibrar todos los datos.
El cdigo fuente est disponible bajo la licencia Apache 2.0 [42].
D. Google BigTable
BigTable fue creado por Google en el ao 2004, con la idea inicial de que fuera
distribuido para varias mquinas, por lo que necesitaban que fuese altamente eficiente.
El sistema divide la informacin en columnas,
E. HBase
HBase es una base de datos de tipo cdigo abierto (Open Source); almacena los datos de
forma clavevalor; tambin almacena y recupera los datos de forma aleatoria, es decir, que
al momento de escribir los datos lo hace a su manera, y al leerlos funciona de igual forma.
Trabaja con los tres tipos de datos: no estructurados, semiestructurados y estructurados,
siempre y cuando no sean tan grandes
F. Riak
G. CouchDB
H. MongoDB
MongoDB es una base de datos con el perfil NoSQL orientada a documentos, bajo la
filosofa de cdigo abierto. La importancia de MongoDBradica en su versatilidad, su
potencia y su facilidad de uso, al igual que en su capacidad para manejar tanto grandes
como pequeos volmenes de datos. Es una base de datos que no tiene concepto de tablas,
esquemas, SQL, columnas o filas. No cumple con las caractersticas ACID, que es el
acrnimo de Atomicity, Consistency, Isolation and Durability (Atomicidad, Consistencia,
Aislamiento y Durabilidad, en espaol).
BaseX
Es una base de datos de tipo documental, la cual permite almacenar, recuperar y gestionar
datos de documentos; es de la clase de bases de datos NoSQL; tiene como caracterstica
importante que permite escalar y, adems, que es de alto rendimiento. Su arquitectura es
cliente/ servidor, permitiendo realizar lecturas y escrituras de datos de manera simultnea.
Cumple con el estndar, ACID (acrnimo de Atomicity, Consistency, Isolation and
Durability-Atomicidad, Consistencia, Aislamiento y Durabilidad). Soporta grandes
documentos en XML, JSON y formatos binarios. BaseX est desarrollado bajo Java y
XQuery [35].
MODELOS DE DATOS
Datos estructurados
Datos no estructurados
Son aquellos que no pueden ser normalizados, no tienen tipos definidos ni estn
organizados bajo algn patrn; tampoco son almacenados de manera relacional, o con
base jerrquica de datos, debido a que no son un tipo de dato predefinido; es decir, no
tienen un formato normalizado determinado. Sin embargo, los datos deben poder ser
organizados, clasificados, almacenados, eliminados, buscados de alguna forma. Estos
datos se pueden observar a diario en correos electrnicos, archivos de texto, un
documento de algn procesador de palabra, hojas electrnicas, una imagen, un objeto,
archivos de audio, blogs, mensajes de correo de voz, mensajes instantneos, contenidos
Web y archivos de video, entre otros.
tecnologas de anlIsIs de datos
BigQuery
Google BigQuery es un servicio web que permite hacer un anlisis interactivo de
enormes conjuntos de datos hasta miles de millones de filas. Escalable y fcil de usar,
permite a los desarrolladores BigQuery y las empresas aprovechar los anlisis de datos
de gran alcance en la demanda [38]. BigQuery es un servicio que presta Google con el
fin de almacenar y consultar grandes datos no estructurados.
ThinkUp
Infosphere Streams
Es una plataforma desarrollada por IBM, que permite el anlisis de datos en milisegundos
[44]. Streams analiza y transforma datos en memoria y en tiempo real, no como sucede
con otras aplicaciones, que primero gestionan, almacenan y por ltimo analizan los datos.
Biginsights Infosphere
Es una plataforma desarrollada por IBM para Hadoop, buscando suplir las necesidades
de las empresas, lo cual se puede lograr facilitando el trabajo de los analistas de sistemas,
sin volverlos programadores en una herramienta de difcil manejo. Otra forma es facilitar
la consulta de los datos almacenados.
System PureData
El sistema PureData es una herramienta de IBM; permite realizar anlisis de Big Data en
menos tiempo que otras herramientas de anlisis; la velocidad de lectura de datos
promedia los 128 gigabytes por segundo; fue diseado para manejar ms de 1000
consultas simultneamente.
Sap Hana
Es un software desarrollado por la empresa Oracle, que combina hardware con software
optimizado, ofreciendo una solucin completa y fcil de implementar para la
organizacin de Big Data. En la parte de hardware, est compuesto por un rack de 18
servidores; cada servidor tiene 64 GB de memoria, es decir, el rack tiene 1,152 GB de
capacidad total de memoria.
HDinsight
Textalytics
CRITERIO PERSONAL.-
Es un conjunto de muchos datos los mismos que pueden ser usados de diferentes formas
las mismas que por su uso han creado la necesidad de clasificarlas y as crear nuevas
tecnologas que permitan un analice correcto y su uso sea el requerido.-
As es que con el pasar del tiempo se han creado diferentes aplicaciones u teoras del
procesamiento de datos.