Big Data

AO DE LA DIVERSIFICACIN PRODUCTIVA Y DEL
FORTALECIMIENTO DE LA EDUCACIN
Universidad Cientfica del Per

Facultad de Ciencias e Ingeniera
Ttulo: Big Data

Asignatura: Administracin y Gestin de Datos 1
Docente: Garca Vlchez Limber
Integrantes:
Mario Torres Franz

Prez Angulo Geoffrey Anthony
Vsquez Ribeiro Irving Bryan
Iquitos-Per
2015
DEDICATORIA
Dedico este presente trabajo en primer lugar a Dios por

darme la oportunidad de estudiar a mi docente por el
apoyo incondicional para la culminacin de mis estudios, a
mis padres por el apoyo que me brindan en todo.
AGRADECIMIENTO
Agradezco a mi profesor por la ensea que me brinda, por

compartir sus conocimientos sin ser egosta de ello, a mis
padres por el apoyo incondicional que me brindad para
poder culminar con mi carrera profesional.
INDICE
DEDICATORIA............................................................................................... 1
AGRADECIMIENTO....................................................................................... 2
INDICE........................................................................................................... 3
INTRODUCCION............................................................................................ 5
De Dnde Proviene Toda La Informacin?............................................6
Qu No Es Big Data?................................................................................. 7
Big Data........................................................................................................ 8
Caractersticas De Big Data:.....................................................................9
Volumen de datos:................................................................................9
Variedad de datos:.................................................................................. 9
Velocidad:................................................................................................ 10
Veracidad:............................................................................................... 10
Valor:....................................................................................................... 10
Tipos De Datos:......................................................................................... 11
Web and Social Media:.........................................................................11
Machine-to-Machine.............................................................................11
Big Transaction Data:...........................................................................11
Biometrics:............................................................................................. 12
Human Generated (Generados por las personas):................................12
Anlisis De Datos...................................................................................... 13
Componentes De Una Plataforma Big Data..........................................14
Nacimiento De Apache Hadoop..............................................................19
Big Data Con Un Crecimiento Exponencial...........................................20
Big Data Y El Campo De Investigacin..................................................21
Utilidades De Big Data:............................................................................23
Empresarial............................................................................................. 23
Redes Sociales:................................................................................... 23
Consumo:............................................................................................. 23
Big Data e intimidad:.........................................................................23
Deportes:................................................................................................ 24
Profesional:......................................................................................... 24
Aficionado:........................................................................................... 24
Investigacin:......................................................................................... 24
Salud y medicina:............................................................................... 24
Defensa y seguridad:..........................................................................25
CONCLUSION.............................................................................................. 27
BIBLIOGRAFIA............................................................................................ 28
ANEXO......................................................................................................... 29
INTRODUCCION
El problema de recopilar informacin relevante de forma eficaz ya se

remonta a la poca de Tolomeo II (hijo de Tolomeo I) quien funda la
biblioteca de Alejandra all por el siglo III a. C.. Tolomeo II tena
como objetivo recopilar todo el conocimiento de la poca (obras de
teatro, poemas picos, tratados de filosofa, medicina, matemticas,
retrica y cualquier rama del saber de la poca) para construir la
mayor y mejor biblioteca del mundo, pero lleg un momento que se
vio desbordado por la enorme cantidad de rollos de papiro que tena
la biblioteca (se estima que lleg a albergar 900.000 manuscritos).
Entonces Tolomeo II contact con Zenodoto que, despus de visitar
la biblioteca, comprendi que ordenar todo aquello era clave, pues la
biblioteca no vala nada por el mero hecho de acumular centenares
de rollos si nadie era capaz de encontrar uno cuando necesitara
consultarlo. Despus de noches de insomnio pensando cmo
clasificar aquellas montaas de cestos de manuscritos, record el
glosario de palabras antiguas de Homero que l haba ordenado por
grupos: los que empezaban por A todos juntos, luego los que
empezaban por B y as sucesivamente. Al principio le pareci
demasiado simple, pero pronto se dio cuenta de que aquello
funcionaba muy bien para localizar una palabra sobre la que hubiera
trabajado. As decidi ordenar todos los rollos por orden alfabtico
segn su autor. La tarea llev meses, aos, pero Zenodoto tuvo
tiempo de ver en vida aquella inmensa biblioteca con todos los
centenares de miles de rollos archivados y localizables.
Tuvieron que pasar unos veintitrs siglos para encontrarnos de
nuevo con el problema de recuperar informacin relevante de forma
eficaz. Nos encontramos en plena burbuja de Internet donde el
nmero de pginas Web crece exponencialmente, al igual que los
usuarios inexpertos que empiezan a acceder a Internet. Estos nuevos
usuarios para poder encontrar informacin relevante podran
consultar pginas de ndices como Yahoo (mantenidas de forma
manual) y motores de bsquedas basados en palabras clave como
AltaVista. En muchas ocasiones los resultados de las bsquedas
realizadas por los usuarios no resultaban relevantes y adems los
sistemas de bsquedas empezaban a tener problemas de
rendimiento.
All en cuando entramos en la era del big data.
De Dnde Proviene Toda La Informacin?

Los seres humanos estamos creando y almacenando informacin
constantemente y cada vez ms en cantidades astronmicas. Se
podra decir que si todos los bits y bytes de datos del ltimo ao
fueran guardados en CD's, se generara una gran torre desde la
Tierra hasta la Luna y de regreso.
Esta contribucin a la acumulacin masiva de datos la podemos
encontrar en diversas industrias, las compaas mantienen grandes
cantidades de datos transaccionales, reuniendo informacin acerca
de sus clientes, proveedores, operaciones, etc., de la misma manera
sucede con el sector pblico. En muchos pases se administran
enormes bases de datos que contienen datos de censo de poblacin,
registros mdicos, impuestos, etc., y si a todo esto le aadimos
transacciones financieras realizadas en lnea o por dispositivos
mviles, anlisis de redes sociales (en Twitter son cerca de 12
Terabytes de tweets creados diariamente y Facebook almacena
alrededor de 100 Petabytes de fotos y videos), ubicacin geogrfica
mediante coordenadas GPS, en otras palabras, todas aquellas
actividades que la mayora de nosotros realizamos varias veces al da
con nuestros "smartphones", estamos hablando de que se generan
alrededor de 2.5 quintillones de bytes diariamente en el mundo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el
2016 la cantidad de trfico de datos mviles crecer a una tasa anual
de 78%, as como el nmero de dispositivos mviles conectados a
Internet exceder el nmero de habitantes en el planeta. Las
naciones unidas proyectan que la poblacin mundial alcanzar los
7.5 billones para el 2016 de tal modo que habr cerca de 18.9
billones de dispositivos conectados a la red a escala mundial, esto
conllevara a que el trfico global de datos mviles alcance 10.8
Exabytes mensuales o 130 Exabytes anuales. Este volumen de trfico
previsto para 2016 equivale a 33 billones de DVDs anuales o 813
cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a
este crecimiento enorme de informacin, existe tambin la
comunicacin denominada mquina a mquina (M2M machine-tomachine) cuyo valor en la creacin de grandes cantidades de datos
tambin es muy importante. Sensores digitales instalados en
contenedores para determinar la ruta generada durante una entrega
de algn paquete y que esta informacin sea enviada a las compaas
de transportacin, sensores en medidores elctricos para determinar
el consumo de energa a intervalos regulares para que sea enviada
esta informacin a las compaas del sector energtico. Se estima
que hay ms de 30 millones de sensores interconectados en distintos
sectores como automotriz, transportacin, industrial, servicios,
comercial, etc. y se espera que este nmero crezca en un 30%
anualmente.
Qu No Es Big Data?
Big Data no es una base de datos enorme
Big Data no es un data warehouse enorme
Big Data no es una nueva forma de Business Intelligence
Big Data no es llevar las base de datos a la nube
Big Data:
El Big Data o Datos masivos es un concepto que hace

referencia a la acumulacin masiva de datos y a los
procedimientos usados para identificar patrones recurrentes
dentro de esos datos. Otras denominaciones para el mismo
concepto son datos masivos o datos a gran escala. En la
literatura cientfica en espaol con frecuencia se usa
directamente el trmino en ingls Big Data, tal como aparece
en el ensayo seminal de Viktor Schnberger Big data: La
revolucin de los datos masivos.
Es un trmino que hace referencia a una cantidad de datos tal
que supera la capacidad del software habitual para ser
capturados, gestionados y procesados en un tiempo razonable.
El volumen de los datos masivos crece constantemente. En
2012 se estimaba su tamao de entre una docena de terabytes
hasta varios petabytes de datos en un nico conjunto de datos.
En la metodologaMIKE2.0 dedicada a investigar temas
relacionados con la gestin de informacin, definen big data en
trminos de permutaciones tiles, complejidad y dificultad para
borrar registros individuales.
En 2001, en un informe de investigacin que se fundamentaba
en congresos y presentaciones relacionadas,13 el analista
Doug Laney del META Group (ahora Gartner) defina el
crecimiento constante de datos como una oportunidad y un
reto para investigar en el volumen, la velocidad y la variedad.
Gartner contina usando datos masivos como referencia.14
Adems, grandes proveedores del mercado de datos masivos
estn desarrollando soluciones para atender las demandas ms
crticas de cmo procesar tal cantidad de datos, como MapR,

Cyttek Group y Cloudera.}
Se define como el conjunto de herramientas informticas

destinadas a la manipulacin, gestin y anlisis de grandes
volmenes de datos de todo tipo los cuales no pueden ser
gestionados por las herramientas informticas tradicionales.
Big data es un trmino de origen ingls cuya traduccin
equivale a "Datos masivos", la tecnologa big data tiene por
objetivo analizar datos e informacin de manera inteligente
que ayuden a una correcta toma de decisin.
El objetivo fundamental del big data es dotar de una
infraestructura tecnolgica a las empresas y organizaciones
con la finalidad de poder almacenar, tratar y analizar de
manera econmica, rpida y flexible la gran cantidad de datos
que se generan diariamente, para ello es necesario el
desarrollo y la implantacin tanto de hardware como de
software especficos que gestionen esta explosin de datos con
el objetivo de extraer valor para obtener informacin til para
nuestros objetivos o negocios.
Es una realidad que la cantidad de informacin digital que se

genera
diariamente
en
nuestro
planeta
crece
exponencialmente, gigantes y potentes bases de datos en
donde se almacenan por ejemplo todos los movimientos de
dinero que se producen en una entidad bancaria, la
informacin que registran los puntos de ventas de los grandes
centros comerciales o toda la informacin que se genera en las
redes sociales, blogs y pginas webs que se actualizan
diariamente, son ejemplos entre otros de fuentes generadoras
de informacin y datos. En este aspecto hay estudios que
afirman que cada da se genera tanta informacin digital como
el equivalente a toda la informacin escrita a lo largo de toda
la historia de la humanidad, sin duda vivimos en la era de la
informacin digital.
Ante esta nueva realidad de la cantidad ingente de datos que

se generan diariamente, muchas empresas y organizacin
desean utilizar esta informacin con el objetivo de mejorar las
prestaciones de sus servicios o negocios, para ello la tecnologa
big data ha sido desarrollada con la finalidad de capturar,
almacenar y analizar toda estos datos con la finalidad de
obtener informacin til para nuestro negocio.
Caractersticas De Big Data:

Volumen de datos:
Como su propio nombre indica la tecnologa big data (datos
masivos) ha de ser capaz de gestionar un gran volumen de
datos que se generan diariamente por las empresas y
organizaciones de todo el mundo, por ejemplo la cadena de
supermercados americana Wallmart almacena ms de 1 milln
de transacciones comerciales cada hora identificando los
productos que compran sus clientes, ms de 100.000 Gb de
informacin almacena la red social Facebook diariamente as
como 72 millones de descargas se realizan en la tienda online
Appstore.
Variedad de datos:
Big data ha de tener la capacidad de combinar una gran
variedad de informacin digital en los diferentes formatos en
las que se puedan presentar ya sean en formato video, audio o
texto. Diferentes fuentes de informacin como las nuevas
tecnologas wearables que monitorizaran nuestra actividad
fsica, el internet de las cosas que conectar los dispositivos y
mquinas entre s, millones de mensajes escritos en redes
sociales como Facebook o Twitter, millones de videos subidos a
Youtube por da... son ejemplos entre otros de fuentes
generadoras de diferentes tipos de informacin.
Velocidad:
10
La tecnologa Big data ha de ser capaz de almacenar y trabajar

en tiempo real con las fuentes generadoras de informacin
como sensores, cmaras de videos, redes sociales, blogs,
pginas webs... fuentes que generan millones y millones de
datos al segundo, por otro lado la capacidad de anlisis de
dichos datos han de ser rpidos reduciendo los largos tiempos
de procesamiento que presentaban las herramientas
tradicionales de anlisis.
Veracidad:
Por ltimo el Big Data ha de ser capaz de tratar y analizar
inteligentemente este vasto volumen de datos con la finalidad
de obtener una informacin verdica y til que nos permita
mejorar nuestra toma de decisiones.
Valor:
Se refiere al valor agregado obtenido por las organizaciones,
lo cual se traduce en la generacin de productos y servicios
personalizados, es decir, al final de genera lo que el cliente
realmente desea o necesita.
En resumen, podemos decir que, Big Data es pasar de una
gran cantidad de datos no estructurados a estructuras de
valor que apoyan la toma de decisiones en corporaciones e
industrias.
Fuente: asalafa en Audiencia Digital, Blog del Centro de
Estudios de Estrategias Digitales, Universidad Montevila
Con todo ello podemos definir al big data como el conjunto de

herramientas informticas que nos permite captar, almacenar y
gestionar un gran volumen de informacin variada a una alta
tasa de velocidad permitiendo obtener unos datos veraces y
tiles para la toma de decisin.
11
Tipos De Datos:
Muchas organizaciones se enfrentan a la pregunta sobre qu
informacin es la que se debe analizar?, sin embargo, el
cuestionamiento debera estar enfocado hacia qu problema es el
que se est tratando de resolver?.
Si bien sabemos que existe una amplia variedad de tipos de datos a
analizar, una buena clasificacin nos ayudara a entender mejor su
representacin, aunque es muy probable que estas categoras
puedan extenderse con el avance tecnolgico.
1.- Web and Social Media:

Incluye contenido web e informacin que es obtenida de las redes
sociales como Facebook, Twitter, LinkedIn, etc, blogs.
Generamos una gran cantidad de datos cuando navegamos por
internet. Con la web 2.0 se ha roto el paradigmawebmastercontenido-lector y los mismos usuarios se convierten en creadores de
contenido gracias a su interaccin con el sitio. Existen muchas
herramientas de tracking utilizadas en su mayora con fines de
marketing y anlisis de negocio. Los movimientos de ratn quedan
grabados en mapas de calor y queda registro de cunto pasamos en
cada pgina y cundo las visitamos.
2.- Machine-to-Machine
(M2M): M2M se refiere a las tecnologas que permiten conectarse a
otros dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algn evento en particular (velocidad,
temperatura, presin, variables meteorolgicas, variables qumicas
como la salinidad, etc.) los cuales transmiten a travs de redes
almbricas, inalmbricas o hbridas a otras aplicaciones que
traducen estos eventos en informacin significativa.
3.- Big Transaction Data:

Incluye registros de facturacin, en telecomunicaciones registros
detallados de las llamadas (CDR), etc. Estos datos transaccionales
estn disponibles en formatos tanto semiestructurados como no
estructurados.
La facturacin, las llamadas o las transaccin entre cuentas generan
informacin que tratada pueden ser datos relevantes. Un ejemplo
ms claro lo encontraremos en las transacciones bancarias: lo que el
usuario conoce como un ingreso de X euros, la computacin lo
12
interpretar como una accin llevada a cabo en una fecha y momento

determinado, en un lugar concreto, entre unos usuarios registrados,
y ms metadatos.
4.- Biometrics:
Informacin biomtrica en la que se incluye huellas digitales,
escaneo de la retina, reconocimiento facial, gentica, etc. En el rea
de seguridad e inteligencia, los datos biomtricos han sido
informacin importante para las agencias de investigacin.
Son el conjunto de datos que provienen de la seguridad, defensa y
servicios de inteligencia. Son cantidades de datos generados por
lectores biomtricos como escneres de retina, escneres de huellas
digitales, o lectores de cadenas de ADN. El propsito de estos datos
es proporcionar mecanismos de seguridad y suelen estar custodiadas
por los ministerios de defensa y departamentos de inteligencia. Un
ejemplo de aplicacin es el cruce de ADN entre una muestra de un
crimen y una muestra en nuestra base de datos
5.- Human Generated (Generados por las personas):

Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada
telefnica, notas de voz, correos electrnicos, documentos
electrnicos, estudios mdicos, etc.
Enviar correos electrnicos por e-mail o mensajes por WhatsApp,
postear en Facebook, tuitearcontenidos o responder a una encuesta
por la calle son algunas acciones cuotidianas que crean nuevos datos
y metadatos que pueden ser analizados. Se estima que cada minuto
al da se envan ms de 200 millones de e-mails, se comparten ms
de 700.000 piezas de contenido en Facebook, se realizan dos
millones de bsquedas en Google o se editan 48 horas de vdeo en
YouTube.Por otro lado, las trazas de utilizacin en un sistema ERP,
incluir registros en una base de datos o introducir informacin en
una hoja de clculo son otras formas de generar estos datos.
13
Anlisis De Datos
Teniendo los datos necesarios almacenados segn diferentes
tecnologas de almacenamiento, nos daremos cuenta que
necesitaremos diferentes tcnicas de anlisis de datos como las
siguientes:
Asociacin: Permite encontrar relaciones entre diferentes
variables. Bajo la premisa de causalidad, se pretende encontrar una
prediccin en el comportamiento de otras variables. Estas relaciones
pueden ser los sistemas de ventas cruzadas en los e-commerce.
Minera de datos (Data Mining): Tiene como objetivo encontrar
comportamientos predictivos. Engloba el conjunto de tcnicas que
combina mtodos estadsticos y de machine learning con
almacenamiento en bases de datos. Est estrechamente relacionada
con los modelos utilizados para descubrir patrones en grandes
cantidades de datos.
Agrupacin (Clustering): El anlisis de clsteres es un tipo de
minera de datos que divide grandes grupos de individuos en grupos
ms pequeos de los cuales no conocamos su parecido antes del
anlisis. El propsito es encontrar similitudes entre estos grupos, y
el descubrimiento de nuevos conociendo cules son las cualidades
que lo definen. Es una metodologa apropiada para encontrar
relaciones entre resultados y hacer una evaluacin preliminar de la
estructura de los datos analizados. Existen diferentes tcnicas y
algoritmos de clustering.
Anlisis de texto (Text Analytics): Gran parte de los datos
generados por las personas son textos, como e-mails, bsquedas web
o contenidos. Esta metodologa permite extraer informacin de estos
datos y as modelar temas y asuntos o predecir palabras.
14
Componentes De Una Plataforma Big Data

Las organizaciones han atacado esta problemtica desde diferentes
ngulos. Todas esas montaas de informacin han generado un costo
potencial al no descubrir el gran valor asociado. Desde luego, el
ngulo correcto que actualmente tiene el liderazgo en trminos de
popularidad para analizar enormes cantidades de informacin es la
plataforma de cdigo abierto Hadoop.
Hadoop est inspirado en el proyecto de Google File System(GFS) y
en el paradigma de programacin MapReduce, el cual consiste en
dividir en dos tareas (mapper reducer) para manipular los datos
distribuidos a nodos de un clster logrando un alto paralelismo en el
procesamiento.[5] Hadoop est compuesto de tres piezas: Hadoop
Distributed File System (HDFS), Hadoop MapReduce y Hadoop
Common.
Hadoop Distributed File System(HDFS)

Los datos en el clster de Hadoop son divididos en pequeas piezas
llamadas bloques y distribuidas a travs del clster; de esta manera,
las funciones map y reduce pueden ser ejecutadas en pequeos
subconjuntos y esto provee de la escalabilidad necesaria para el
procesamiento de grandes volmenes.
15
La siguiente figura ejemplifica como los bloques de datos son

escritos hacia HDFS. Observe que cada bloque es almacenado tres
veces y al menos un bloque se almacena en un diferente rack para
lograr redundancia.
Ejemplo de HDFS
Hadoopk MapReduce:
MapReduce es el ncleo de Hadoop. El trmino MapReduce en
realidad se refiere a dos procesos separados que Hadoop ejecuta. El
primer proceso map, el cual toma un conjunto de datos y lo convierte
en otro conjunto, donde los elementos individuales son separados
en tuplas(pares de llave/valor). El proceso reduce obtiene la salida
de map como datos de entrada y combina las tuplas en un conjunto
ms pequeo de las mismas. Una fase intermedia es la
denominada Shuffle la cual obtiene las tuplas del proceso map y
determina que nodo procesar estos datos dirigiendo la salida a una
tarea reduce en especfico.
Ejemplo de MapReduce
16
Hadoop Common
Hadoop Common Components son un conjunto de libreras que
soportan varios subproyectos de Hadoop.
Adems de estos tres componentes principales de Hadoop, existen
otros proyectos relacionados los cuales son definidos a continuacin:
Avro:
Es un proyecto de Apache que provee servicios de serializacin.
Cuando se guardan datos en un archivo, el esquema que define ese
archivo es guardado dentro del mismo; de este modo es ms sencillo
para cualquier aplicacin leerlo posteriormente puesto que el
esquema esta definido dentro del archivo.
Cassandra:
Cassandra es una base de datos no relacional distribuida y basada en
un modelo de almacenamiento de <clave-valor>, desarrollada en
Java. Permite grandes volmenes de datos en forma distribuida.
Twitter es una de las empresas que utiliza Cassandra dentro de su
plataforma.
Chukwa:
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye
un toolkit para desplegar los resultados del anlisis y monitoreo.
Flume:
Tal como su nombre lo indica, su tarea principal es dirigir los datos
de una fuente hacia alguna otra localidad, en este caso hacia el
ambiente de Hadoop. Existen tres entidades principales: sources,
decorators y sinks.Un source es bsicamente cualquier fuente de
datos, sink es el destino de una operacin en especfico y
17
undecorator es una operacin dentro del flujo de datos que

transforma esa informacin de alguna manera, como por ejemplo
comprimir o descomprimir los datos o alguna otra operacin en
particular sobre los mismos.
HBase:
Es una base de datos columnar (column-oriented database) que se
ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una
base de datos relacional. Cada tabla contiene filas y columnas como
una base de datos relacional. HBase permite que muchos atributos
sean agrupados llamndolos familias de columnas, de tal manera que
los elementos de una familia de columnas son almacenados en un
solo conjunto. Eso es distinto a las bases de datos relacionales
orientadas a filas, donde todas las columnas de una fila dada son
almacenadas en conjunto. Facebook utiliza HBase en su plataforma
desde Noviembre del 2010.
Hive:
Es una infraestructura de data warehouse que facilita administrar
grandes conjuntos de datos que se encuentran almacenados en un
ambiente distribuido. Hive tiene definido un lenguaje similar a SQL
llamado Hive Query Language(HQL), estas sentencias HQL son
separadas por un servicio de Hive y son enviadas a procesos
MapReduce ejecutados en el cluster de Hadoop.
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos
y obtener informacin de la tabla utilizando Hive:
CREATE TABLE Tweets (from_user STRING, userid BIGINT, tweettext STRING,
retweets INT)
COMMENT 'This is the Twitter feed table'
STORED AS SEQUENCEFILE;
LOAD DATA INPATH 'hdfs://node/tweetdata' INTO TABLE TWEETS;
SELECT from_user, SUM(retweets)
FROM TWEETS
GROUP BY from_user;
Jaql:
Fue donado por IBM a la comunidad de software libre. Query
Language for Javascript Object Notation (JSON) es un lenguaje
funcional y declarativo que permite la explotacin de datos en
formato JSON diseado para procesar grandes volmenes de
informacin. Para explotar el paralelismo, Jaql reescribe los queries
de alto nivel (cuando es necesario) en queries de "bajo nivel" para
distribuirlos como procesos MapReduce.
18
Internamente el motor de Jaql transforma el query en

procesos map y reduce para reducir el tiempo de desarrollo asociado
en analizar los datos en Hadoop. Jaql posee de una infraestructura
flexible para administrar y analizar datos semiestructurados como
XML, archivos CSV, archivos planos, datos relacionales, etc.
Lucene:
Es un proyecto de Apache bastante popular para realizar bsquedas
sobre textos. Lucene provee de libreras para indexacin y bsqueda
de texto. Ha sido principalmente utilizado en la implementacin de
motores de bsqueda (aunque hay que considerar que no tiene
funciones de "crawling" ni anlisis de documentos HTML ya
incorporadas). El concepto a nivel de arquitectura de Lucene es
simple, bsicamente los documentos (document) son dividos en
campos de texto (fields) y se genera un ndice sobre estos campos de
texto. La indexacin es el componente clave de Lucene, lo que le
permite realizar bsquedas rpidamente independientemente del
formato del archivo, ya sean PDFs, documentos HTML, etc.
Oozie:
Como pudo haber notado, existen varios procesos que son ejecutados
en distintos momentos los cuales necesitan ser orquestados para
satisfacer las necesidades de tan complejo anlisis de informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de
trabajo y la coordinacin entre cada uno de los procesos. Permite
que el usuario pueda definir acciones y las dependencias entre
dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico
llamado Directed Acyclical Graph (DAG), y es acclico puesto que no
permite ciclos en el grafo; es decir, solo hay un punto de entrada y de
salida y todas las tareas y dependencias parten del punto inicial al
punto final sin puntos de retorno. Un ejemplo de un flujo de trabajo
en Oozie se representa de la siguiente manera:
19
Flujo de trabajo en Oozie
Pig:
Inicialmente desarrollado por Yahoo para permitir a los usuarios de
Hadoop enfocarse ms en analizar todos los conjuntos de datos y
dedicar menos tiempo en construir los programas MapReduce. Tal
como su nombre lo indica al igual que cualquier cerdo que come
cualquier cosa, el lenguaje PigLatin fue diseado para manejar
cualquier tipo de dato y Pig es el ambiente de ejecucin donde estos
programas son ejecutados, de manera muy similar a la relacin entre
la mquina virtual de Java (JVM) y una aplicacin Java.
ZooKeeper:
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee
de una infraestructura centralizada y de servicios que pueden ser
utilizados por aplicaciones para asegurarse de que los procesos a
travs de un cluster sean serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo
que se persiste en memoria en los servidores ZooKeeper
llamado znode.Este archivo znode puede ser actualizado por
cualquier nodo en el cluster, y cualquier nodo puede registrar que
sea informado de los cambios ocurridos en ese znode; es decir, un
servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a
travs de un cluster distribuido
20
Nacimiento De Apache Hadoop

Posteriormente, en 2005, Yahoo crea un proyecto open source
llamado Apache Hadoop, originariamente desarrollado para soportar
el motor de bsqueda Nutch pero que luego se convirti en un
estndar de facto para lo que denominamos actualmente
arquitecturas Big Data.
A partir de aqu todos los grandes fabricantes de software (IBM,

Oracle, Microsoft, etc.) se han sumado a esta tendencia tecnolgica
incorporando a sus productos diversos componentes de Apache
Hadoop para poder vender sus productos como Big Data. Adems
han aparecido un conjunto de fabricantes especializados en Apache
Hadoop que han creado sus propias distribuciones (conjunto de
componentes testados e integrados entre si, as como herramientas
de administracin y mantenimiento) que ofrecen servicios tanto de
consultora para la implantacin como soporte y mantenimiento.
Cabe destacar las distribuciones de Apache Hadoop de Cloudera,
MapR Technologies y Hortonworks, que contribuyen en la evolucin
de Apache Hadoop.
Por otro lado en muchas ocasiones se identifica Big Data con Apache
Hadoop, pero existen otras arquitecturas consideradas Big Data
como por ejemplo MongoDB, Google BigQuery y Amazon DynamoDB
entre otros, que tienen una aproximacin distinta a Apache Hadoop,
aunque empiezan a tener funcionalidades cada vez ms parecidas.
21
Big Data Con Un Crecimiento Exponencial

Tengamos en cuenta que actualmente el ritmo de crecimiento de los
datos es exponencial, de esta manera, es lgico pensar en nuevas
herramientas que nos ayuden en el tratamiento de estos silos de
informacin, que pueden provenir de mltiples y diferentes canales,
como:
Histrico de datos: datos acumulados durante aos, que pueden

arrojar
estadsticas y tendencias muy representativas
Redes sociales: muy tiles si podemos filtrar y analizar el feedback
de
nuestros clientes y proveedores.
ClickStream: conocer la navegacin y el uso que hacen nuestros
clientes de nuestro sistio web.
Sensores: pueden llegar a generar autnticas montaas de datos
para evaluar.
Dispositivos mviles: la incorporacin de los mismos a las
estructuras
empresariales siguiendo BYOD (Bring Your Own Device).
Internet: es una poderosa herramienta si somo capaces de
organizar la informacin que necesitamos.
22
Big Data Y El Campo De Investigacin

Los cientficos e investigadores han analizado datos desde ya hace
mucho tiempo, lo que ahora representa el gran reto es la escala en la
que estos son generados.
Esta explosin de "grandes datos" est transformando la manera en
que se conduce una investigacin adquiriendo habilidades en el uso
de Big Data para resolver problemas complejos relacionados con el
descubrimiento cientfico, investigacin ambiental y biomdica,
educacin, salud, seguridad nacional, entre otros.
De entre los proyectos que se pueden mencionar donde se ha llevado

a cabo el uso de una solucin de Big Data se encuentran:
El Language, Interaction and Computation Laboratory (CLIC)
:
En conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo inters es el estudio de la comunicacin verbal y
no verbal tanto con mtodos computacionales como cognitivos.
Lineberger Comprehensive Cancer Center - Bioinformatics
Group:
23
utiliza Hadoop y HBase para analizar datos producidos por los

investigadores de The Cancer Genome Atlas(TCGA) para soportar las
investigaciones relacionadas con el cncer.
El PSG College of Technology:
India, analiza mltiples secuencias de protenas para determinar los
enlaces evolutivos y predecir estructuras moleculares. La naturaleza
del algoritmo y el paralelismo computacional de Hadoop mejora la
velocidad y exactitud de estas secuencias.
La Universidad Distrital Francisco Jose de Caldas:
utiliza Hadoop para apoyar su proyecto de investigacin relacionado
con el sistema de inteligencia territorial de la ciudad de Bogot.
La Universidad de Maryland:
es una de las seis universidades que colaboran en la iniciativa
acadmica de cmputo en la nube de IBM/Google. Sus
investigaciones incluyen proyectos en la lingistica computacional
(machine translation), modelado del lenguaje, bioinformtica,
anlisis de correo electrnico y procesamiento de imgenes.
.El Instituto de Tecnologa de la Universidad de Ontario

(UOIT):
junto con el Hospital de Toronto utilizan una plataforma de big data
para anlisis en tiempo real de IBM (IBM InfoSphere Streams), la
cual permite monitorear bebs prematuros en las salas de
neonatologa para determinar cualquier cambio en la presin
arterial, temperatura, alteraciones en los registros del
electrocardiograma y electroencefalograma, etc., y as detectar hasta
24 horas antes aquellas condiciones que puedan ser una amenaza en
la vida de los recin nacidos.
.Los laboratorios Pacific Northwest National Labs(PNNL):

utilizan de igual manera IBM InfoSphere Streams para analizar
eventos de medidores de su red elctrica y en tiempo real verificar
aquellas excepciones o fallas en los componentes de la red, logrando
comunicar casi de manera inmediata a los consumidores sobre el
problema para ayudarlos en administrar su consumo de energa
elctrica.
La esclerosis mltiple es una enfermedad del sistema nervioso que
afecta al cerebro y la mdula espinal. La comunidad de investigacin
biomdica y la Universidad del Estado de Nueva York (SUNY) estn
aplicando anlisis con big data para contribuir en la progresin de la
24
investigacin, diagnstico, tratamiento, y quizs hasta la posible cura

de la esclerosis mltiple.
Con la capacidad de generar toda esta informacin valiosa de
diferentes sistemas, las empresas y los gobiernos estn lidiando con
el problema de analizar los datos para dos propsitos importantes:
ser capaces de detectar y responder a los acontecimientos actuales
de una manera oportuna, y para poder utilizar las predicciones del
aprendizaje histrico. Esta situacin requiere del anlisis tanto de
datos en movimiento (datos actuales) como de datos en reposo (datos
histricos), que son representados a diferentes y enormes
volmenes, variedades y velocidades.
Utilidades De Big Data:

Este conjunto de tecnologas se puede usar en una gran variedad de
mbitos, como los siguientes.
Empresarial
Redes Sociales:
Cada vez ms tendemos a subir a las redes sociales toda nuestra
actividad y la de nuestros conocidos. Las empresas utilizan esta
informacin para cruzar los datos de los candidatos a un trabajo.
Oracle ha desarrollado una herramienta llamada Taleo Social
Sourcing, la cual est integrada con las APIs de Facebook, Twitter y
25
LinkedIn. Gracias a su uso, los departamentos de recursos humanos

pueden ver, entrando la identidad del candidato, su perfil social y
profesional en cuestin de segundos. Por otro lado, les permite crear
una lista de posibles candidatos segn el perfil profesional necesario,
y as pasar a ofrecer el puesto de trabajo a un pblico mucho ms
objetivo. Por otro lado, Gate Gourmet una compaa de catering de
aerolneas,- experimentaba una tasa de abandono del 50% de sus
trabajadores asignados al aeropuerto de Chicago, y sospecharon que
el problema exista en el tiempo dedicado al viaje. Para demostrarlo,
hicieron anlisis juntando varios data sets de sus sistemas internos y
de otros externos como datos demogrficos, datos de trfico y datos
de uso de redes sociales. Los resultados que obtuvieron fueron
patrones que relacionaban muy consistentemente la alta tasa de
abandono con la distancia del lugar de trabajo a casa y la
accesibilidad al transporte pblico.
Consumo:
Amazon es lder en ventas cruzadas. El xito se basa en la minera de
datos masiva basando los patrones de compra de un usuario
cruzados con los datos de compra de otro, creando as anuncios
personalizados y boletines electrnicos que incluyen justo aquello
que el usuario quiere en ese instante. Offline tambin nos
encontramos con casos de aplicacin Big Data. Nuestros telfonos
mviles envan peticiones de escucha WiFi a todos los puntos de
acceso con los que nos cruzamos. Algunas compaas han decidido
hacer un trazo de estas peticiones con su localizacin y direccin
MAC para saber qu dispositivo hace cul ruta dentro de un recinto.
No hay que asustarse ya que con la direccin MAC no pueden invadir
nuestra intimidad. Las grandes superficies aprovechan estos datos
para sacar informacin como contabilizar cunto tiempo pasan los
clientes en su interior, qu rutas siguen, dnde permanecen ms
tiempo (ya sea escogiendo un producto o el tiempo de espera en
caja) o cul es la frecuencia de visita.
Big Data e intimidad:
La cantidad de datos creados anualmente es de 2,8 Zettabytes en
2012, de los cuales el 75% son generados por los individuos segn su
uso de la red ya sea bajarse un archivo, conectar el GPS o enviar un
correo electrnico. Se calcula que un oficinista medio genera 1,8
Terabytes al ao por lo que son unos 5 GB al da de informacin.36
Aqu entran en juego las empresas llamadas corredores de datos.
Acxiom es una de ellas, y posee unas 1.500 trazas de datos de ms
de 500 millones de usuarios deinternet. Todos estos datos son
transformados y cruzados para incluir al usuario analizado en uno de
los 70 segmentos de usuarios, llamado PersonicX.37 Descrito como
un resumen de indicadores de estilo de vida, intereses y
26
actividades, esta corredura de datos basa su clustering en los

acontecimientos vitales y es capaz de predecir ms de 3.000
reacciones ante estmulos de estos clientes. En un primer momento
captaba la informacin de los hechos reales y no virtuales de los
usuarios.38 En febrero de 2013, Facebook acord la cesin de la
informacin personal de sus usuarios con Acxiom y otros corredores
de datos haciendo cruzar las actividades de la vida off-line con las
actividades on-line . A nivel usuario, nos encontramos con Google
Location History: un servicio de Google que registra las ubicaciones
en las cuales ha estado un usuario que lleva el mvil encima, y con el
servicio de localizacin activado (que por defecto lo est en los
terminales con Android). Al acceder a l muestra un mapa con las
rutas que ha seguido el usuario, con la hora de llegada y salida de
cada ubicacin. Gracias a esta utilidad se crean algoritmos de
recomendaciones de amigos en redes sociales y ubicaciones a visitar
basados en el historial de ubicaciones del usuario. Por ltimo, Google
pag 3.200 millones de dlares por Nest, una empresa de detectores
de humo. Ahora Google ha abierto Nest Labs, donde se pretende
desarrollar sensores para convertir la casa en una Smart home.
Incluir estos sensores permitir saber por ejemplo cundo hay
alguien o no en casa gracias a su interaccin con los wearables, a
qu temperatura est el ambiente o detectar si hay algn peligro
dentro como fuego.
Deportes:
Profesional:
En un mbito donde se mueve tanto dinero, suelen utilizar las nuevas
tecnologas antes que los usuarios de base. Nos encontramos por
ejemplo que el anlisis de los partidos constituye una parte
fundamental en el entrenamiento de los profesionales, y la toma de
decisiones de los entrenadores. Amisco43 es un sistema aplicado por
los ms importantes equipos de las ligas Espaola,Francesa,
Alemana e Inglesa des del 2001. Consta de 8 cmaras y diversos
ordenadores instalados en los estadios, que registran los
movimientos de los jugadores a razn de 25 registros por segundo, y
luego envan los datos a una central donde hacen un anlisis masivo
de los datos. La informacin que se devuelve como resultado incluye
una reproduccin del partido en dos dimensiones, los datos tcnicos
y estadsticas, y un resumen de los datos fsicos de cada jugador,
permitiendo seleccionar varias dimensiones y visualizaciones
diferentes de datos.43
Aficionado:
Aplicaciones como Runtastic, Garmin o Nike+ proveen de resultados
Big Data al usuario. Este ltimo Nike+- va un paso ms all a nivel
de organizacin, ya que fabrican un producto bsico para sus
27
usuarios: las zapatillas. Los 7 millones de usuarios generan una gran

cantidad de datos para medir el rendimiento y su mejora, por lo que
la empresa genera unos clsteres con los patrones de
comportamiento de sus usuarios. Uno de sus objetivos pues, es
controlar el tiempo de vida de sus zapatillas encontrando frmulas
para mejorar la calidad. Por ltimo, hace picar a sus usuarios con el
uso de la gamificacin: establece que comunidades de usuarios
lleguen a metas y consigan objetivos conjuntamente con el uso de la
aplicacin, motivando e inspirando a los corredores para usar su
aplicacin y a ms largo plazo, sus productos deportivos.
Investigacin:
Salud y medicina:
Hacia mediados 2009, el mundo experiment una pandemia de gripe
A, llamada gripe porcina o H1N1. El websiteGoogle Flu Trends fue
capaz de predecirla gracias a los resultados de las bsquedas. Flu
Trends usa los datos de las bsquedas de los usuarios que contienen
Influenza-Like Illness Symptoms (Sntomas parecidos a la
enfermedad de la gripe) y los agrega segn ubicacin y fecha, y es
capaz de predecir la actividad de la gripe hasta con dos semanas de
antelacin ms que los sistemas tradicionales. Ms concretamente
en Nueva Zelanda44 cruzaron los datos de Google Flu Trends con
datos existentes de los sistemas de salud nacionales, y comprobaron
que estaban alineados. Los grficos mostraron una correlacin con
las bsquedas de ILI Symptoms y la extensin de la pandemia en el
pas. Los pases con sistemas de prediccin poco desarrollados
pueden beneficiarse de una prediccin fiable y pblica para
abastecer a su poblacin de las medidas de seguridad oportunas.
Defensa y seguridad:
Para incrementar la seguridad frente a los ataques de las propias
organizaciones, ya sean empresas en el entorno econmico o los
propios ministerios de defensa en el entorno de ciberataques, se
contempla la utilidad de la tecnologa Big Data en escenarios como la
vigilancia y seguridad de fronteras, lucha contra el terrorismo y
crimen organizado, contra el fraude, planes de seguridad ciudadana
o planeamiento tctico de misiones e inteligencia militar.
28
29
CONCLUSION
La tecnologa Big Data no resuelve todos los problemas de
escalabilidad ni sirve para todo tipo de proyecto en el cual hay gran
volumen de datos. Hay que estudiar caso a caso.
Hay que ser crtico a la hora de elegir una solucin Big Data ya que
no todos los fabricantes cumplen con los requisitos que se le exige a
una arquitectura Big Data. Podemos considerar a Apache Hadoop
como arquitectura Big Data de referencia, aunque hay otras
aproximaciones.
Tiene que haber una necesidad de negocio que justifique un
proyecto Big Data que aporte valor a negocio y con unos objetivos
claros.
30
BIBLIOGRAFIA
CONSULTEC Introduccin a big data
http://www.gmv.com/blog_gmv/introduccion-albig-data/
http://www.oracle.com/lad/bigdata/overview/index
.html
Fundacin Innovacin Bankinter Bing data el
poder de los datos
https://es.wikipedia.org/wiki/Big_data
http://www.brandchats.com/7-tipos-de-datos-quecomprende-el-big-data/
http://www.lantares.com/blog/las-cincoprincipales-aplicaciones-de-big-data
http://searchdatacenter.techtarget.com/es/opinio
n/Big-data-De-la-gestion-de-datos-noestructurados-a-la-especializacion-del-analisis
31
ANEXO
32

Big Data

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Big Data

Hochgeladen von

Copyright:

Verfügbare Formate

AO DE LA DIVERSIFICACIN PRODUCTIVA Y DEL

Universidad Cientfica del Per

Ttulo: Big Data

Mario Torres Franz

Dedico este presente trabajo en primer lugar a Dios por

Agradezco a mi profesor por la ensea que me brinda, por

El problema de recopilar informacin relevante de forma eficaz ya se

De Dnde Proviene Toda La Informacin?

Big Data no es un data warehouse enorme

Big Data no es una nueva forma de Business Intelligence

Big Data no es llevar las base de datos a la nube

El Big Data o Datos masivos es un concepto que hace

crticas de cmo procesar tal cantidad de datos, como MapR,

Se define como el conjunto de herramientas informticas

Es una realidad que la cantidad de informacin digital que se

Ante esta nueva realidad de la cantidad ingente de datos que

Caractersticas De Big Data:

La tecnologa Big data ha de ser capaz de almacenar y trabajar

Con todo ello podemos definir al big data como el conjunto de

1.- Web and Social Media:

3.- Big Transaction Data:

interpretar como una accin llevada a cabo en una fecha y momento

5.- Human Generated (Generados por las personas):

Componentes De Una Plataforma Big Data

Hadoop Distributed File System(HDFS)

La siguiente figura ejemplifica como los bloques de datos son

undecorator es una operacin dentro del flujo de datos que

Internamente el motor de Jaql transforma el query en

Flujo de trabajo en Oozie

Nacimiento De Apache Hadoop

A partir de aqu todos los grandes fabricantes de software (IBM,

Big Data Con Un Crecimiento Exponencial

Histrico de datos: datos acumulados durante aos, que pueden

Big Data Y El Campo De Investigacin

De entre los proyectos que se pueden mencionar donde se ha llevado

utiliza Hadoop y HBase para analizar datos producidos por los

.El Instituto de Tecnologa de la Universidad de Ontario

.Los laboratorios Pacific Northwest National Labs(PNNL):

investigacin, diagnstico, tratamiento, y quizs hasta la posible cura

Utilidades De Big Data:

LinkedIn. Gracias a su uso, los departamentos de recursos humanos

actividades, esta corredura de datos basa su clustering en los

usuarios: las zapatillas. Los 7 millones de usuarios generan una gran

Das könnte Ihnen auch gefallen