Big Data Monografia

Administracin de Servicios de Red 2
Big Data
INTEGRANTES
Juan Pablo Segura Pizarro - U201301211
Larry Linares Canales - U201200341
Marzo 2016
INDICE
INDICE............................................................................................................ 2
INTRODUCCION.............................................................................................. 3
DEFINICION..................................................................................................... 4
ANALISIS EN TERMINOS DE BYTES..................................................................5

COMO FUNCIONA........................................................................................... 6
DE DONDE PROVIENEN LOS DATOS................................................................7
CLASIFICACION............................................................................................... 8
Datos no estructurados..................................................................................8
Caractersticas de datos no estructurados..................................................8
SOFTWARE................................................................................................... 11
LAS TRES V................................................................................................... 12
VENTAJAS...................................................................................................... 13
DESVENTAJAS............................................................................................... 13
CONCLUSIONES............................................................................................ 13
BIBLIOGRAFIA............................................................................................... 14
INTRODUCCION
Big Data es un concepto que hace referencia a grandes cantidades de
informacin, disponibles en diversos formatos y tipos de estructuras,
recopilada principalmente a travs de Internet mediante la interaccin de
los usuarios de computadores, telfonos mviles y dispositivos GPS, entre
otros. Asimismo, es utilizada para describir enormes cantidades de datos
(estructurados, no estructurados y semi-estructurados) que tomara
demasiado tiempo y sera muy costoso cargarlos a una base de datos
relacional para su anlisis. De tal manera que, el concepto de Big Data
aplica para toda aquella informacin que no puede ser procesada o
analizada utilizando procesos o herramientas tradicionales. Sin embargo,
Big Data no se refiere a alguna cantidad en especfico, ya que es
usualmente utilizado cuando se habla en trminos de petabytes y exabytes
de datos. Adicionalmente, el concepto de volumen es muy variable y cada
da que pasa eleva lo que podemos considerar grandes volmenes de datos.
El objetivo de Big Data, al igual que los sistemas analticos convencionales,
es convertir el dato en informacin, ya que facilita la toma de decisiones,
incluso en tiempo real. Sin embargo, ms que una cuestin de tamao, es
una oportunidad de negocio. Las empresas ya estn utilizando Big Data para
entender el perfil, las necesidades y el sentir de sus clientes respecto a los

productos y/o servicios vendidos. Esto adquiere especial relevancia ya que
permite adecuar la forma en la que interacta la empresa con sus clientes y
en cmo les prestan servicio.
DEFINICION
El concepto de grandes volmenes de datos no viene de la nada. De hecho,
no es nuevo, pero est recibiendo mucha atencin por varias razones, tales
como la baratura de almacenamiento de datos, la proliferacin de sensores
y tecnologa de captura de datos.
No existe una definicin precisa del trmino Big Data. IDC define de la
siguiente manera: "Las tecnologas Big Data describen una nueva
generacin de tecnologas y arquitecturas, diseados para extraer
econmicamente valor a partir de volmenes muy grandes de una amplia
variedad de datos, lo que permite la captura de alta velocidad,
descubrimiento y anlisis."
Otra definicin, realizado por McKinsey Global Institute, "Big Data se refiere
a conjuntos de datos cuyo tamao es ms all de las tpicas herramientas
de software de base de la capacidad de capturar, almacenar, gestionar y
analizar."
Entonces nos damos cuenta que no define Big Data slo en el tamao del
volumen de datos, sino la capacidad de manipularlos.
ANALISIS EN
TERMINOS DE
BYTES
El volumen de
datos generados
en todo el
mundo est
aumentando.
Un estudio
realizado por
IDC en 2011
muestra el
datos es
cada dos aos
zettabytes (1,8
gigabytes).
estamos
volumen de
ms del doble
y debe llegar a 11,8
billones de
Podemos decir que
experimentando una
explosin de datos.
De acuerdo con IBM, el 90%
de los datos
almacenados en el mundo de hoy se han creado en los ltimos dos aos.

Otros estudios revelan que 30 millones de entradas se comparten en
Facebook por mes. Un milln de transacciones de los clientes se generan
por hora en Wal-Mart. Y en 2020, las compaas tendrn que administrar 10
veces ms servidores, 50 veces ms datos, 75 veces ms archivos con slo
1,5 veces ms personas.
Podemos ver en la historia una evolucin en el valor de los datos. Durante
los aos 50 y 60 los datos fueron vistos como un producto. Ya en las
dcadas de los 90 y 2000 los datos ya han comenzado a tener un valor,
ayudando a las organizaciones en el proceso de toma de decisiones. Y en
esta dcada en adelante, los datos se tratan como un sustrato, es decir,
algo esencial para las organizaciones del da a da.
Los datos estn siendo recogidos a gran escala. Ellos provienen de diversas
fuentes, tales como los datos generados por los sistemas transaccionales,
sensores, cmaras, satlites, registros, redes sociales, etc.
A la vista de todo esto inundacin y la evolucin en el valor de los datos,
surge una pregunta: Qu podemos hacer con toda esta cantidad de
informacin? En el mundo empresarial, las decisiones que se basan en
suposiciones o modelos construidos por expertos, ahora pueden hacerse
sobre la base de los datos recogidos.
COMO FUNCIONA
El funcionamiento de Big Data est basado en el modelo de programacin
MapReduce. Este modelo es utilizado en procesos que pueden ser
paralelizados, como las consultas de Big Data, ya que las subdivide en
pequeas tareas ejecutables por varios procesadores. De esta forma, la
capacidad de procesamiento de datos aumenta tanto en tamao como en
rapidez, de ah que la cantidad de datos procesados en este tipo de
tecnologa sea muy superior a otras consultas que slo utilicen datos
estructurados.
Como usuarios, para utilizar el modelo MapReduce basta con usar Hadoop,
un software de cdigo abierto desarrollado por Apache que permite procesar

grandes cantidades de informacin almacenadas en ficheros.
DE DONDE PROVIENEN LOS DATOS
Cualquier empresa, independientemente de su tamao, con los datos e

informacin que se debe almacenar. Y con el rpido aumento de esta
informacin, se ha convertido en esencial que estos datos se almacenan en
una base de datos informatizada. Esto hizo que el acceso a la informacin
era ms gil, prctico y con un menor nmero de fallos en la recuperacin
de datos.
Hay diferentes tipos de DBMS, de esos grandes sistemas que estn
presentes en grandes corporaciones a pequeos sistemas que se ejecutan
en los ordenadores personales. DBMS populares son: PostgreSQL, MySQL,
Oracle y SQL Server.
CLASIFICACION
Datos no
estructurados
Una posible definicin de datos no estructurados, son aquellos datos
no almacenados en una base de datos tradicional. La informacin no
estructurada no puede ser almacenada en estructuras de datos
relacionales predefinidas.
Se pueden establecer diferentes clasificaciones, vamos a considerar
dos de ellas.
Datos no estructurados y semiestructurados. Los datos

semiestructurados seran aquellos datos que no residen de bases de
datos relacionales, pero presentan una organizacin interna que
facilita su tratamiento, tales como documentos XML y datos
almacenados en bases de datos NoSQL.
Datos de tipo texto y no-texto. Datos no estructurados de tipo texto

podran ser datos generados en las redes sociales, foros, e-mails,
presentaciones Power Point o documentos Word, mientras que datos
no-texto podran ser ficheros de imgenes jpeg, ficheros de audio
mp3 o ficheros de video tipo flash.
Caractersticas de datos no estructurados

Las principales caractersticas de los datos no estructurados son las siguientes:
Volumen y crecimiento: el volumen de datos y la tasa de crecimiento

de los datos no estructurados es muy superior al de los datos
estructurados. Por ejemplo, twitter genera 12 Terabytes de
informacin cada da. De acuerdo con Gartner, la tasa anual de
crecimiento de datos es del 40 a 60 por ciento, pero para los datos no
estructurados en empresas, la tasa de crecimiento puede llegar al 80
por ciento (informe 2012).
Orgenes de datos: El origen de los datos es muy diverso: datos

generados en redes sociales, datos generados en foros, e-mails, datos
extrados de la web empleando tcnicas de web semntica,
documentos internos de la compaa (word, pdf, ppt).
Almacenamiento: Debido a su estructura no podemos emplear

arquitectura relacional, siendo necesario trabajar con herramientas
Big Data, siendo crtico en estas arquitecturas los aspectos
relacionados con la escalabilidad y paralelismo. Segn el tipo de dato
se impone el almacenamiento cloud. Monitorizar la frecuencia de uso
y la deteccin de datos inactivos son aspectos crticos de cara a
reducir costes de almacenamiento.
Terminologa e idiomas: La terminologa es una cuestin crtica

tratando datos no estructurados de tipo texto. Es habitual llamar a lo
mismo de diferentes formas, de tal modo que es necesario una
racionalizacin de la terminologa. Otra cuestin es el idioma en el
que se he generado la informacin tratada.
Seguridad: Hay que considerar que algunos datos no estructurados

de tipo texto, pueden no ser seguros. Por otra parte el control de
accesos a los mismos es complejo debido a cuestiones de

confidencialidad y la difcil clasificacin del dato.
Tratamiento de datos no estructurados
Las principales cuestiones a considerar en el tratamiento de informacin no
estructurada son las siguientes:
Crear una plataforma escalable (infraestructura y procesos) que

permita tratar grandes cantidades de datos. Las tecnologas RDBMS
son insuficientes para tratar informacin no estructurada. Es
necesaria una capacidad de almacenamiento y una capacidad de
proceso escalable. Teniendo en cuenta que el coste econmico de
mantener plataformas escalables, hay que considerar la opcin cloud.
Desde el punto de vista de los procesos, en ocasiones es interesante
utilizar in-memory analytics.
Aadir informacin/estructura complementaria a los datos no

estructurados. Es importante aadir algn tipo de estructura a los
datos no estructurados que ayude a su tratamiento. Por ejemplo, en
una coleccin de tweets de redes sociales puede ser interesante
aadir campos tales como el idioma, la localizacin geogrfica para
su posterior procesado. Esta estructura adicional que aadimos debe
ser modelizada de cara a estar en constante evolucin.
Crear conjuntos reducidos de datos que sean representativos. Dado el

volumen ingente de informacin, es importante trabajar con muestras
de datos que sean estadsticamente representativos sobre los datos a
analizar. Muchos anlisis pueden llevarse a cabo con un grado de
exactitud razonable, utilizando conjuntos de datos que son ms
pequeos en un orden de magnitud que la informacin en bruto.
Desarrollo de algoritmos. Hay diferentes tipos de aproximacin hacia

la informacin no estructurada. Por ejemplo, para procesos de text
mining, puede utilizarse natural language processing combinado con
redes neuronales. Otras tcnicas como redes bayesianas permiten
descubrir patrones sobre mltiples dimensiones. Son importantes
tambin las tcnicas de visualizacin de datos.
Procesos de depuracin/limpiado de datos. Dado el ingente volumen
de datos, se convierte en crtico la correcta gestin del histrico de

datos. Deteccin de datos no usados o de frecuencia de consulta muy
baja con objeto de limpiar informacin y liberar espacio.
Ejemplo sencillo tratamiento datos no estructurados (redes sociales)
Dada la variada naturaleza de los datos no estructurados, hay infinidad de
posibles procesos relacionados con ellos. A continuacin mostramos un
sencillo ejemplo de tratamiento de datos provenientes de redes sociales.
El objetivo de este anlisis de datos es conocer la percepcin que existe
sobre el precio de determinado producto en twitter.
Extraccin: Utilizando una clase de java (ejemplo twitter4j) leemos el feed de

Twitter disponible en https://twitter.com/search/realtime. Aadimos a los
campos disponibles calificaciones del tipo: idioma, localizacin geogrfica.
Transformacin: Filtramos todos aquellos tuits que contengan el

nombre del producto. Refinamos el filtro introduciendo campos del
tipo (precio) + (barato, caro, econmico, etc...), teniendo en
cuenta el idioma en el que se generan lo tuits. Valorar la opcin en
base al volumen de obtener una muestra representativa de los datos
extrados y filtrados.
Volcado a BBDD : Insertamos en una tabla el registro del tuit con la

calificacin identificada (idioma, localizacin geogrfica)
Informes: Creamos informe que permita realizar anlisis por tiempo

y campos de calificacin. Hay que considerar que este informe puede
ser actualizado en tiempo real.
SOFTWARE
1. Hadoop: Inspirada en el proyecto de Google File System (GFS), es un
proyecto de alto nivel Apache.
2. NoSQL: No solo SQL Utilizada por Facebook para almacenar solo los
50 TB de la bandeja de entrada de 1000 usuarios.
3. Cassandra: Basada en Hadoop y desarrollada en Java, es actualmente
utilizada en toda la red social twitter.
4. Oracle Data Integrator: Basada en Hadoop pero enfocada como una
solucin empresarial.
LAS TRES V
1. Volumen: quiz el ms llamativo por su aumento desmesurado
en los ltimos aos, aunque el menos importante en clave de
utilidad para la compaa. Es una consecuencia de las mejoras de
las redes de comunicaciones y de las mayores velocidades de los
accesos de banda ancha, pero la mayor cantidad de datos por s
sola no aporta un valor aadido. Es la causa que lleva a
preocuparse por los otros dos factores.
2. Variedad: ordenar e interpretar diferentes tipos de datos a la vez
puede generar grandes ventajas. Combinar datos de edad,
gnero, estado civil, situacin laboral, situacin geogrfica,
intereses, gustos... permite crear perfiles ms precisos de clientes
potenciales para realizar campaas de publicidad y mrketing
segmentadas. Aunque las ventajas de poder ajustar ms el punto
de mira en el blanco de la diana tambin puede tener una parte
negativa, si el cliente percibe una cierta invasin de su intimidad.
La sutileza es la gran virtud para que el valor aadido qeu ofrece
la varieda de datos conjuntados no se vuelva en contra.
3. Velocidad: se refiere a la vida til de los datos. No tiene sentido
conservar datos cuyo recorrido ha terminado y han quedado
obsoletos. Una de las claves para poder almacenar grandes
cantidades de datos de forma que sean tiles para la estrategia
comercial es que la utilidad de toda la informacin que se
conserva sea vigente. Empresas de segn qu sector llegan a

descartar hasta el 90% de los datos generados y preservan slo
aquellos que les pueden ofrecer rendimiento.
VENTAJAS
1.
2.
3.
4.
5.
6.
Es un valioso recurso de informacin para disear estrategias.

Comunicacin directa con el cliente.
Mejora de la eficiencia y los costes
Mejora de la gestin empresarial
Facilidad para que las compaas evalen sus productos.
La segmentacin de los clientes para personalizar acciones.
DESVENTAJAS
1.
2.
3.
4.
Acceso a la informacin sin autorizacin.

Amenaza a nuestra privacidad.
Se pueden incurrir en riesgos ticos y legislativos.
Ausencia en el mercado local de profesionales.
CONCLUSIONES
La naturaleza de la informacin hoy es diferente a la informacin en el
pasado.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que
les podran haber tomado aos en descubrir por si mismos sin el uso de
estas herramientas, debido a la velocidad del anlisis, es posible que el
analista de datos pueda cambiar sus ideas basndose en el resultado
obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el
verdadero valor al que se est tratando de llegar.
Si la informacin es poder, entonces Big Data se entiende como una gran
linterna que ilumina aquellos datos que estaban escondidos, facilitando
anlisis de datos que antes limitaba la tecnologa.
Debe existir el uso tico y legal de la informacin y esta debe ser regulado
por las autoridades, ya que el anlisis de toda la informacin que
generamos, ya sea en las redes sociales, en nuestros dispositivos mviles, o
en nuestras cuentas de correo, puede ser til para nosotros mismos, pero se
debe garantizar el consentimiento y el uso lcito de estos datos.
BIBLIOGRAFIA
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
http://elpais.com/elpais/2015/03/26/buenavida/1427382655_646798.html
https://www.enriquedans.com/2011/10/big-data-una-pequenaintroduccion.html
http://www.isaca.org/knowledgecenter/research/researchdeliverables/pages/big-data-impacts-andbenefits.aspx
http://www.oracle.com/lad/bigdata/products/index.html

Big Data Monografia

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Big Data Monografia

Hochgeladen von

Copyright:

Verfügbare Formate

Administracin de Servicios de Red 2

ANALISIS EN TERMINOS DE BYTES..................................................................5

entender el perfil, las necesidades y el sentir de sus clientes respecto a los

almacenados en el mundo de hoy se han creado en los ltimos dos aos.

un software de cdigo abierto desarrollado por Apache que permite procesar

DE DONDE PROVIENEN LOS DATOS

Cualquier empresa, independientemente de su tamao, con los datos e

Datos no estructurados y semiestructurados. Los datos

Datos de tipo texto y no-texto. Datos no estructurados de tipo texto

Caractersticas de datos no estructurados

Volumen y crecimiento: el volumen de datos y la tasa de crecimiento

Orgenes de datos: El origen de los datos es muy diverso: datos

Almacenamiento: Debido a su estructura no podemos emplear

Terminologa e idiomas: La terminologa es una cuestin crtica

Seguridad: Hay que considerar que algunos datos no estructurados

accesos a los mismos es complejo debido a cuestiones de

Crear una plataforma escalable (infraestructura y procesos) que

Aadir informacin/estructura complementaria a los datos no

Crear conjuntos reducidos de datos que sean representativos. Dado el

Desarrollo de algoritmos. Hay diferentes tipos de aproximacin hacia

Procesos de depuracin/limpiado de datos. Dado el ingente volumen

de datos, se convierte en crtico la correcta gestin del histrico de

Extraccin: Utilizando una clase de java (ejemplo twitter4j) leemos el feed de

Transformacin: Filtramos todos aquellos tuits que contengan el

Volcado a BBDD : Insertamos en una tabla el registro del tuit con la

Informes: Creamos informe que permita realizar anlisis por tiempo

conserva sea vigente. Empresas de segn qu sector llegan a

Es un valioso recurso de informacin para disear estrategias.

Acceso a la informacin sin autorizacin.

Das könnte Ihnen auch gefallen