Sie sind auf Seite 1von 13

SISTEMAS INFORMATICOS

PARALELO U

ALUMNA:

VERONICA NATALY MENDIETA ZAMBRANO

PROYECTO INTEGRADOR 10

TUTOR: ING. RICARDO AGUIRRE

AO 2016-2017
Qu es Big Data?

Todos formamos parte de ese gran crecimiento de datos

Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar,
descubrir y entender ms all de lo que sus herramientas tradicionales reportan sobre su
informacin, al mismo tiempo que durante los ltimos aos el gran crecimiento de las
aplicaciones disponibles en internet (geo-referenciamiento, redes sociales, etc.) han sido
parte importante en las decisiones de negocio de las empresas. El presente artculo tiene
como propsito introducir al lector en el concepto de Big Data y describir algunas
caractersticas de los componentes principales que constituyen una solucin de este tipo.

Specialist for Information Management, IBM Software Group Mxico

Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas


industrias, las compaas mantienen grandes cantidades de datos transaccionales,
reuniendo informacin acerca de sus clientes, proveedores, operaciones, etc., de la misma
manera sucede con el sector pblico. En muchos pases se administran enormes bases de
datos que contienen datos de censo de poblacin, registros mdicos, impuestos, etc., y si
a todo esto le aadimos transacciones financieras realizadas en lnea o por dispositivos
mviles, anlisis de redes sociales (en Twitter son cerca de 12 Terabytes de tweets creados
diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos),
ubicacin geogrfica mediante coordenadas GPS, en otras palabras, todas aquellas
actividades que la mayora de nosotros realizamos varias veces al da con nuestros
"smartphones", estamos hablando de que se generan alrededor de 2.5 quintillones de bytes
diariamente en el mundo.

1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000

De acuerdo con un estudio realizado por Cisco, entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el planeta.
Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5 billones para
el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos conectados a la red
a escala mundial, esto conllevara a que el trfico global de datos mviles alcance 10.8
Exabytes mensuales o 130 Exabytes anuales. Este volumen de trfico previsto para 2016
equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto.

Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a mquina
(M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades de datos
tambin es muy importante. Sensores digitales instalados en contenedores para
determinar la ruta generada durante una entrega de algn paquete y que esta informacin
sea enviada a las compaas de transportacin, sensores en medidores elctricos para
determinar el consumo de energa a intervalos regulares para que sea enviada esta
informacin a las compaas del sector energtico. Se estima que hay ms de 30 millones
de sensores interconectados en distintos sectores como automotriz, transportacin,
industrial, servicios, comercial, etc. y se espera que este nmero crezca en un 30%
anualmente.
Qu tipos de datos debo explorar?

Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que se


debe analizar?, sin embargo, el cuestionamiento debera estar enfocado hacia qu
problema es el que se est tratando de resolver? [2]

Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena
clasificacin nos ayudara a entender mejor su representacin, aunque es muy probable
que estas categoras puedan extenderse con el avance tecnolgico.

Figura 1. Tipos de datos de Big Data[2]

1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las
redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.

2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten


conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que
capturan algn evento en particular (velocidad, temperatura, presin, variables
meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a travs
de redes almbricas, inalmbricas o hbridas a otras aplicaciones que traducen estos
eventos en informacin significativa.
3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn
disponibles en formatos tanto semiestructurados como no estructurados.

4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo de


la retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia, los
datos biomtricos han sido informacin importante para las agencias de investigacin.

5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de voz,
correos electrnicos, documentos electrnicos, estudios mdicos, etc.

Componentes de una plataforma Big Data

Las organizaciones han atacado esta problemtica desde diferentes ngulos. Todas esas
montaas de informacin han generado un costo potencial al no descubrir el gran valor
asociado. Desde luego, el ngulo correcto que actualmente tiene el liderazgo en trminos
de popularidad para analizar enormes cantidades de informacin es la plataforma de
cdigo abierto Hadoop.

Hadoop est inspirado en el proyecto de Google File System(GFS) y en el paradigma de


programacin MapReduce, el cual consiste en dividir en dos tareas (mapper reducer)
para manipular los datos distribuidos a nodos de un clster logrando un alto paralelismo
en el procesamiento.[5] Hadoop est compuesto de tres piezas: Hadoop Distributed File
System (HDFS), Hadoop MapReduce y Hadoop Common.

Hadoop Distributed File System(HDFS)


Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques y
distribuidas a travs del clster; de esta manera, las funciones map y reduce pueden ser
ejecutadas en pequeos subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volmenes.

La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS.
Observe que cada bloque es almacenado tres veces y al menos un bloque se almacena en
un diferente rack para lograr redundancia.

Figura 2. Ejemplo de HDFS


Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos
procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto
de datos y lo convierte en otro conjunto, donde los elementos individuales son separados
en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos
de entrada y combina las tuplas en un conjunto ms pequeo de las mismas. Una fase
intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y
determina que nodo procesar estos datos dirigiendo la salida a una tarea reduce en
especfico.

La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.

(Ricardo Barranco Fragoso, IT Specialist for Information Management, IBM Software


Group Mxico, 2012)
Para que sirve Big Data.- Big Data es la posibilidad de explotar comercialmente una
gran cantidad de datos para crear nuevos servicios comerciales. En el mundo se acumulan
cada vez ms datos en formato digital pero el problema es que estos datos son en general
poco estructurado y en cantidades ingentes.

(web)

TECNOLOGIAS DE BIG DATA

Se tiene tecnologas tales como arquitecturas de Procesamiento Paralelo Masivo (MPP),


que ayudan de forma rpida a su procesamiento. Para el manejo de datos no estructurados
o semiestructurados es necesario acudir a todas las tecnologas, como MapReduce o
Hadoop diseadas para el manejo de informacin estructurada.

Apache Hadoop

Fue diseado para ejecutarse en grupos relativamente grandes de hardware, es decir, en


clster robustos.

Es robusto, pues ante un mal funcionamiento del hardware puede superar tales
situaciones sin mayor inconveniente.
Tiene la ventaja de poder ser escalable, lo que indica que permite crecer o agregar nodos
al clster con relativa facilidad; por ejemplo, ante la forma vertiginosa como crecen las
redes sociales, permite agregar ms nodos con facilidad.
Es simple, por lo que permite a los usuarios escribir cdigo con eficiencia, para software
distribuido.

Hadoop tiene sus inicios como un subproyecto de Nutch, que era a su vez un subproyecto
de Apache Lucene; es una indexacin de texto y de bsqueda bibliogrfica, es decir,
permite realizar bsquedas dentro de documentos. Nutch es un proyecto ms ambicioso
que Apache Lucene, lo que se busca es disear un motor de bsqueda para la web, el cual
contiene analizador para HTML, un rastreador web, una base de datos de link-grfica y
otros componentes adicionales necesarios.

Hoy en da, Hadoop muestra ventajas significativas frente a bases de datos SQL
(Structured Query Language), que se presentan como un diseo para el manejo de
informacin estructurada, donde los datos residen en tablas relacionales que tienen una
estructura definida, pues fue diseado para informacin no estructurada o
semiestructurada, como documentos de texto, imgenes y archivos.

Hadoop Distributed File System (HDFS: Sistema de archivos distribuido Hadoop): Es


un sistema de archivos altamente tolerante a fallos, escalable y con una arquitectura
distribuida; puede llegar a almacenar 100 TB en un solo archivo, lo cual no es tan fcil
en otros tipos de sistemas de archivos. Adems, brinda la apariencia de estar trabajando
en un solo archivo, pero realmente lo que se tiene es que estn distribuidos en varias
mquinas para su procesamiento.
Lam menciona [20] que HDFS se dise para el procesamiento por lotes, en lugar de uso
interactivo por los usuarios; pero realmente se dise para resolver dos problemas
importantes que se presentan en el procesamiento de datos a gran escala: el primero es la
capacidad de descomponer los archivos en varias partes y procesar cada una
independientemente de las dems, y al final consolidar todas las divisiones del archivo
en uno solo; el segundo problema era la tolerancia a fallos, tanto en el nivel de
procesamiento de archivos como de forma general del software, al momento de realizar
el procesamiento de datos distribuidos; lo que se busca es que el sistema pueda
recuperarse de la falla que se pueda presentar sin afectar demasiado el proceso [20,21].

Permitir procesar archivos con tamaos de gigabytes (GB) hasta petabytes (PB).
Poder leer datos a grandes velocidades.
Capacidad para ser ejecutado en una mquina, sin solicitar hardware especial.
La arquitectura de HDFS est compuesta por un nodo principal (NameNode) y varios
nodos esclavos (DataNodes).
El nodo principal es el servidor maestro, dedicado a gestionar el espacio del nombre de
los archivos y controlar el acceso de los diferentes archivos de usuarios; adems, el nodo
maestro se encarga de gestionar las operaciones de abrir, cerrar, mover, nombrar y
renombrar archivos y directorios.
Los nodos esclavos (DataNodes), como su nombre lo indica, representan los esclavos de
la arquitectura HDFS. En un HDFS pueden existir miles de nodos esclavos y decenas de
miles de clientes HDFS por clster; esto se debe a que cada nodo esclavo puede ejecutar
mltiples tareas de aplicaciones de forma simultnea. La funcin del nodo esclavo es la
de gestionar tanto la lectura como la escritura de los archivos de los usuarios, y realizar
la replicacin de acuerdo a como lo indique el nodo maestro (NameNode) [21].
Hadoop MapReduce: Hadoop MapReduce es un marco de software creado con el fin de
hacer aplicaciones que puedan procesar grandes cantidades de datos de forma paralela,
en un mismo hardware. Cuando los datos entran para ser procesados se dividen de manera
independiente, para su procesamiento, es decir, de manera distribuida en diferente
hardware que exista. MapReduce est compuesto de un maestro, llamado JobTracker, y
un esclavo, TaskTracker, por cada nodo. El primero se encarga de programar las tareas,
los componentes que manejan el esclavo, y ste ejecuta las tareas segn las indicaciones
del maestro.

MapReduce es usado en soluciones donde se pueda procesar de forma paralela y, adems,


con grandes cantidades de informacin, es decir, con volmenes de petabytes, de lo
contrario no sera una solucin adecuada. Otra condicin es que se puede usar
MapReduce en procesos que se puedan disgregar en operaciones map () y reduce (), las
cuales se definen en funcin de datos estructurados. Puede ser ejecutado en varios
lenguajes de programacin, como Java, Ruby, Python, and C++

BASES DE DATOS NOSQL


En 1998 aparece el trmino NoSQL, que significa no solo SQL. El nombre fue creado
por Carlo Strozzi, para denominar su base de datos que no ofreca SQL. Las NoSQL no
presentan el modelo de las bases de datos relacionales; estas no tienen esquemas, no usan
SQL, tampoco permiten joins (unin), no almacenan datos en tablas de filas y columnas
de manera uniforme, presentan escalabilidad de forma horizontal, para su labor usan la
memoria principal del computador; su objetivo es gestionar grandes volmenes de
informacin. Las bases de datos NoSQL tienen como caracterstica principal que su
estructura es distribuida, es decir, los datos se hallan distribuidos en varias mquinas [21,
24, 25]. Las bases de datos NoSQL permiten obtener los datos con mayor velocidad que
en otras con modelo relacional.
En la Tabla 1 se presenta un ejemplo de una clase de bases de datos NoSQL, con las
caractersticas mencionadas anteriormente.
Ejemplo de base de datos NOSQL CLAVE-VALOR

Clave Valor
1 Nombre: Julio; Apellidos: Ros; Nacionalidad: espaola
2 Nombre: Mara; Apellidos: Gutirrez Castro;
Nacionalidad: colombiana; Edad: 30
3 Nombre: Petra; Nacionalidad: italiana

Existen varias clases de bases de datos NoSQL, dependiendo de su forma de almacenar


los datos, tales como: almacenamiento Clave-Valor, orientadas a columnas y las
orientadas a documentos. A continuacin se presentan algunas Bases de Datos NoSQL:

A. DynamoDB

DynamoDB fue desarrollada y probada de manera interna en Amazon; guarda muy fcil
y econmicamente cualquier cantidad de informacin. Los datos son almacenados en
unidades de estado slido SSD (Solid State Drive), las cuales permiten mayor velocidad
a la hora de encontrar la informacin, pues estas unidades funcionan de manera diferente
a como lo hace el disco duro del computador [40]. Con el uso de SSD se tiene un
excelente rendimiento, mayor fiabilidad y un alto grado de seguridad de los datos.

B. Cassandra

Proyecto iniciado por Facebook; es del tipo cdigo abierto (Open Source). Se puede decir
que despus de la implementacin de Cassandra, las redes sociales se dispararon en
popularidad.Es una base de datos distribuida, y almacena los datos en forma de
clavevalor; fue desarrollada en java, adems, hoy en da es usada en la red social Twitter.
Otras caractersticas importantes de Cassandra es que es descentralizada, lo que significa
que cada nodo es idntico, y, adems, que no existe ningn punto nico de fallo; que es
escalable, es decir, que el software puede atender un nmero mayor de solicitudes de los
usuarios sin que se note algn tipo de degradacin en su rendimiento, y que es tolerante
a fallos, es decir, que puede reemplazar nodos que fallen en el clster sin perder tiempo.
C. Voldemort

Voldemort fue creada por LinkedIn, con el fin de solucionar los problemas de
escalabilidad que tenan las bases de datos relacionales; los datos los almacena en forma
de clave-valor; es de ambiente distribuido, los datos se replican automticamente en los
diferentes nodos o servidores, donde cada nodo es independiente de los dems; permite
con cierta facilidad la expansin del clster, sin necesidad de reequilibrar todos los datos.
El cdigo fuente est disponible bajo la licencia Apache 2.0 [42].

D. Google BigTable

BigTable fue creado por Google en el ao 2004, con la idea inicial de que fuera
distribuido para varias mquinas, por lo que necesitaban que fuese altamente eficiente.
El sistema divide la informacin en columnas,

E. HBase

HBase es una base de datos de tipo cdigo abierto (Open Source); almacena los datos de
forma clavevalor; tambin almacena y recupera los datos de forma aleatoria, es decir, que
al momento de escribir los datos lo hace a su manera, y al leerlos funciona de igual forma.
Trabaja con los tres tipos de datos: no estructurados, semiestructurados y estructurados,
siempre y cuando no sean tan grandes

F. Riak

Riak es una base de datos que almacena la informacin en forma de clave-valor y es de


ambiente distribuido, presenta la caracterstica de que es tolerante a fallos, lo que indica
que puede eliminar errores y sus efectos antes de que ocurra una falla, buscando de esta
manera maximizar la fiabilidad del sistema. [28, 29].

G. CouchDB

CouchDB es el acrnimo en ingls de Clusterof UnreliableCommodity Hardware; fue


creado en el ao 2005, por Damien Katz. En el 2011 se hace el lanzamiento al pblico
de la versin 1.1.1. Se considera que
CouchDB es un servidor de base de datos documental, lo cual indica que los datos no los
almacena en tablas, sino que la base de datos est compuesta por documentos, que a su
vez trabajan como objetosCouchDB presenta una caracterstica importante: se puede
instalar desde un datacenter hasta un Smartphone, y se puede ejecutar en un celular
Android, en un MacBook o en un datacenter, lo que quiere decir que se pueden almacenar
datos pequeos en un celular, como tambin grandes volmenes de datos en un servidor.
Tambin es muy flexible para estructurar y distribuir datos.

H. MongoDB

MongoDB es una base de datos con el perfil NoSQL orientada a documentos, bajo la
filosofa de cdigo abierto. La importancia de MongoDBradica en su versatilidad, su
potencia y su facilidad de uso, al igual que en su capacidad para manejar tanto grandes
como pequeos volmenes de datos. Es una base de datos que no tiene concepto de tablas,
esquemas, SQL, columnas o filas. No cumple con las caractersticas ACID, que es el
acrnimo de Atomicity, Consistency, Isolation and Durability (Atomicidad, Consistencia,
Aislamiento y Durabilidad, en espaol).

BaseX

Es una base de datos de tipo documental, la cual permite almacenar, recuperar y gestionar
datos de documentos; es de la clase de bases de datos NoSQL; tiene como caracterstica
importante que permite escalar y, adems, que es de alto rendimiento. Su arquitectura es
cliente/ servidor, permitiendo realizar lecturas y escrituras de datos de manera simultnea.
Cumple con el estndar, ACID (acrnimo de Atomicity, Consistency, Isolation and
Durability-Atomicidad, Consistencia, Aislamiento y Durabilidad). Soporta grandes
documentos en XML, JSON y formatos binarios. BaseX est desarrollado bajo Java y
XQuery [35].

MODELOS DE DATOS

Datos estructurados

Este tipo de datos se dividen en estticos (array, cadena de caracteres y registros) y


dinmicos (listas, pilas, colas, rboles, archivos). Se puede definir que los datos
estructurados son aquellos de mayor facilidad para acceder, pues tienen una estructura
bien especificada [31, 36]. Un array es una coleccin finita de elementos en formatos
definidos del mismo tipo, es decir, son homogneos, y ordenados por un ndice; con estos
formatos se facilita la administracin de los datos; ejemplo de ellos, un campo que
contiene una fecha DD, MM, AA, que contiene seis caracteres, o un formato con la
direccin de la persona, que puede ser alfanumrico, con tamao de 40 caracteres.

Datos no estructurados

Son aquellos que no pueden ser normalizados, no tienen tipos definidos ni estn
organizados bajo algn patrn; tampoco son almacenados de manera relacional, o con
base jerrquica de datos, debido a que no son un tipo de dato predefinido; es decir, no
tienen un formato normalizado determinado. Sin embargo, los datos deben poder ser
organizados, clasificados, almacenados, eliminados, buscados de alguna forma. Estos
datos se pueden observar a diario en correos electrnicos, archivos de texto, un
documento de algn procesador de palabra, hojas electrnicas, una imagen, un objeto,
archivos de audio, blogs, mensajes de correo de voz, mensajes instantneos, contenidos
Web y archivos de video, entre otros.
tecnologas de anlIsIs de datos

BigQuery
Google BigQuery es un servicio web que permite hacer un anlisis interactivo de
enormes conjuntos de datos hasta miles de millones de filas. Escalable y fcil de usar,
permite a los desarrolladores BigQuery y las empresas aprovechar los anlisis de datos
de gran alcance en la demanda [38]. BigQuery es un servicio que presta Google con el
fin de almacenar y consultar grandes datos no estructurados.

ThinkUp

ThinkUp es un potente motor de anlisis de datos que permite extraer informacin de


Twitter, Facebook y Google+. Para la instalacin es necesario un servidor con PHP y
una base de datos en MySQL. ThinkUp se desarroll bajo licencia GPL y su gran
potencial es la extraccin de datos; es una aplicacin web gratuita, de cdigo abierto,
puede almacenar actividades sociales en una base de datos con el control de cada persona.

Infosphere Streams

Es una plataforma desarrollada por IBM, que permite el anlisis de datos en milisegundos
[44]. Streams analiza y transforma datos en memoria y en tiempo real, no como sucede
con otras aplicaciones, que primero gestionan, almacenan y por ltimo analizan los datos.

Biginsights Infosphere

Es una plataforma desarrollada por IBM para Hadoop, buscando suplir las necesidades
de las empresas, lo cual se puede lograr facilitando el trabajo de los analistas de sistemas,
sin volverlos programadores en una herramienta de difcil manejo. Otra forma es facilitar
la consulta de los datos almacenados.

System PureData

El sistema PureData es una herramienta de IBM; permite realizar anlisis de Big Data en
menos tiempo que otras herramientas de anlisis; la velocidad de lectura de datos
promedia los 128 gigabytes por segundo; fue diseado para manejar ms de 1000
consultas simultneamente.

Infosphere Information Server

Es una plataforma de integracin de datos, producto desarrollado por IBM; permite


limpiar y transformar datos, para luego entregar informacin confiable a la empresa o
negocio. Esta herramienta permite trabajar inteligencia de negocios, facilitando la mejor
toma de decisiones; ayuda en el almacenamiento de los datos.

Sap Hana

Sap Hana (System Applications Products HighPerformance Analytic Appliance) es una


herramienta para el anlisis de Big Data, la cual se compone de hardware y software, con
gran velocidad de procesamiento de datos y en los tiempos de respuesta cuando de
consultas se trata; lo anterior debido a que para el procesamiento de datos usa tecnologa
in-memory.

Oracle Big Data Appliance

Es un software desarrollado por la empresa Oracle, que combina hardware con software
optimizado, ofreciendo una solucin completa y fcil de implementar para la
organizacin de Big Data. En la parte de hardware, est compuesto por un rack de 18
servidores; cada servidor tiene 64 GB de memoria, es decir, el rack tiene 1,152 GB de
capacidad total de memoria.

HDinsight

Es un producto Microsoft, basado en Hadoop, permite gestionar datos estructurados y no


estructurados de cualquier tamao, que se pueden llegar a combinar perfectamente con
herramientas de Inteligencia de Negocios de Microsoft.

Textalytics

Textalytics es un software desarrollado por Daedalus (Data Decisions and Language S.


A.), dedicado al anlisis de texto; extrae con facilidad significado de lo escrito en medios
sociales y todo tipo de documentos.

(Camargo-Vega, Camargo-Ortega, & Joyanes-Aguilar, REDYLAC, 2015)

CRITERIO PERSONAL.-

Es un conjunto de muchos datos los mismos que pueden ser usados de diferentes formas
las mismas que por su uso han creado la necesidad de clasificarlas y as crear nuevas
tecnologas que permitan un analice correcto y su uso sea el requerido.-

As es que con el pasar del tiempo se han creado diferentes aplicaciones u teoras del
procesamiento de datos.

Una de las importancias principales es su procesamiento tanto en velocidad y


almacenamiento.

Das könnte Ihnen auch gefallen