Sie sind auf Seite 1von 24

AO DEL BUEN SERVICIO AL CIUDADANO

Trabajo Monogrfico

Integrantes : Jara Palacios, Eric Jos.

Escuela Prof. : Ingeniera de Sistemas de Informacin.

Ciclo : Noveno IX.

Curso : Gerencia de Tecnologas de Informacin.

Docente : Ing. Juan Carlos Paredes Vsquez.

Tema : Inteligencia Emocional.


La Gerencia y las Estrategias.
Estrategia Empresarial.

Agosto de 2017
Iquitos Per
INTELIGENCIA EMOCIONAL
LA GERENCIA Y LAS ESTRATEGIAS
ESTRATEGIA EMPRESARIAL

2
DEDICATORIA

Quiero dedicar esta vez, al nombre de mi padre Dios porque me cuida


en los momentos difciles, y para enfrentar esa gran valla va ser difcil
pero no imposible de rebasar, tenemos la voluntad de demostrar toda
nuestra amplitud de estudios.

3
NDICE
I. PORTADA ............................................................................................... 1

II. TTULO .................................................................................................... 2

III. DEDICATORIA ........................................................................................ 3

IV. NDICE..................................................................................................... 4

V. INTRODUCCIN ..................................................................................... 5

VI. CAPTULOS ............................................................................................ 6

Captulo I: Definicin ................................................................................................... 6


Captulo II: Tipos de Datos de Big Data ....................................................................... 7
2.1 Web and Social Media: ................................................................................ 7
2.2 Machine-to-Machine (M2M): ...................................................................... 7
2.3 Big Transaction Data: ................................................................................... 7
2.4 Biometrics: ................................................................................................... 7
2.5 Human Generated: ...................................................................................... 7
Capitulo III: Componentes de una Plataforma Big Data.............................................. 8
3.1 Hadoop Distributed File System(HDFS): ...................................................... 8
3.2 Hadoop MapReduce: ................................................................................... 9
3.3 Hadoop Common: ........................................................................................ 9
Captulo IV: Procesos Tcnicos .................................................................................. 14
4.1 Captura: ..................................................................................................... 14
4.2 Transformacin: ......................................................................................... 15
4.3 Almacenamiento NoSQL: ........................................................................... 15
4.4 Anlisis de datos: ....................................................................................... 17
4.5 Visualizacin de datos................................................................................ 18
Captulo V: Tecnologas del Big Data ......................................................................... 20
5.1 Datos estructurados: ................................................................................. 20
5.2 Datos no estructurados: ............................................................................ 20
5.3 Datos semiestructurados: .......................................................................... 20
Captulo VI: Aplicaciones Tcnicas ............................................................................ 21
6.1 Entendiendo y Segmentando a los Clientes .............................................. 21
6.2 Mejorando la Ciencia y la Investigacin .................................................... 21
6.3 Optimizando el Rendimiento de Mquinas y Dispositivos ........................ 22
VII. CONCLUSIN ....................................................................................... 23

VIII. BIBLIOGRAFA ...................................................................................... 24

4
INTRODUCCIN

La tecnologa que ha abierto las puertas hacia un nuevo enfoque de


entendimiento y toma de decisiones, la cual es utilizada para describir enormes
cantidades de datos (estructurados, no estructurados y semi-estructurados) que
tomara demasiado tiempo y sera muy costoso cargarlos a un base de datos
relacional para su anlisis. De tal manera que, el concepto de Big Data aplica
para toda aquella informacin que no puede ser procesada o analizada utilizando
procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a
alguna cantidad en especfico, ya que es usualmente utilizado cuando se habla
en trminos de petabytes y exabytes de datos. Entonces Cunto es demasiada
informacin de manera que sea elegible para ser procesada y analizada
utilizando Big Data? Analicemos primeramente en trminos de bytes:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Adems del gran volumen de informacin, esta existe en una gran variedad de
datos, por ejemplo, de dispositivos mviles, audio, video, sistemas GPS,
incontables sensores digitales en equipos industriales, automviles, medidores
elctricos, veletas, anemmetros, etc.
Las aplicaciones que analizan estos datos requieren que la velocidad de
respuesta sea lo demasiado rpida para lograr obtener la informacin correcta
en el momento preciso. Estas son las caractersticas principales de una
oportunidad para Big Data.

5
CAPTULOS

Captulo I: Definicin

Las tecnologas de Big Data describen un nuevo conjunto de tecnologas y


arquitecturas, diseadas para extraer valor y beneficio de grandes volmenes de
datos con una amplia variedad en su naturaleza, mediante procesos que
permitan capturar, descubrir y analizar informacin a alta velocidad y con un
coste reducido. 2IBM, considera que hay Big Data, si el conjunto de informacin
supera el terabyte de informacin, es sensible al tiempo, y mezcla informacin
estructurada con no estructurada. As, su enfoque trata de buscar la forma mejor
de aprovechar estos datos, su gestin, su combinacin (datos estructurados con
los que no lo son), la aplicacin de algoritmos predictivos de comportamiento, y
con todo ello, permitir la toma de decisiones que aadan valor al negocio.
Big Data no es una tecnologa en s misma, sino ms bien un planteamiento de
trabajo para la obtencin de valor y beneficios de los grandes volmenes de
datos que se estn generando hoy en da. Se deben contemplar aspectos como
los siguientes:
Cmo capturar, gestionar y explotar todos estos datos.
Cmo asegurar estos datos y sus derivados, as como su validez y fiabilidad.
Cmo disponer la comparticin de estos datos y sus derivados en la organizacin
para la obtener mejoras y beneficios.

Cmo comunicar estos datos y sus derivados (tcnicas de visualizacin,


herramientas, y formatos) para facilitar la toma de decisin y posteriores anlisis.
Las dificultades ms habituales vinculadas a la gestin de estas cantidades de
datos se centran en la recoleccin y el almacenamiento, bsqueda, comparticin,
anlisis, y visualizacin. La tendencia a manipular enormes cantidades de datos
se debe a la necesidad en muchos casos de incluir dicha informacin para la
creacin de informes estadsticos y modelos predictivos utilizados en diversas
materias, como los anlisis de negocio, publicitarios, los datos de enfermedades
infecciosas, el espionaje y seguimiento a la poblacin o la lucha contra el crimen
organizado.

6
Captulo II: Tipos de Datos de Big Data

Muchas organizaciones se enfrentan a la pregunta sobre Qu informacin es


la que se debe analizar?, sin embargo, el cuestionamiento debera estar
enfocado hacia Qu problema es el que se est tratando de resolver?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar,
una buena clasificacin nos ayudara a entender mejor su representacin,
aunque es muy probable que estas categoras puedan extenderse con el avance
tecnolgico.

Figura 1. Tipos de datos de Big Data

1.- Web and Social Media: Incluye contenido web e informacin que es obtenida
de las redes sociales como Facebook, Twitter, LinkedIn, etc., blogs.

2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten


conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algn evento en particular (velocidad, temperatura,
presin, variables meteorolgicas, variables qumicas como la salinidad, etc.) los
cuales transmiten a travs de redes almbricas, inalmbricas o hbridas a otras
aplicaciones que traducen estos eventos en informacin significativa.

3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones


registros detallados de las llamadas (CDR), etc. Estos datos transaccionales
estn disponibles en formatos tanto semiestructurados como no estructurados.

4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales,


escaneo de la retina, reconocimiento facial, gentica, etc. En el rea de
seguridad e inteligencia, los datos biomtricos han sido informacin importante
para las agencias de investigacin.

5.- Human Generated: Las personas generamos diversas cantidades de datos


como la informacin que guarda un call center al establecer una llamada
telefnica, notas de voz, correos electrnicos, documentos electrnicos, estudios
mdicos, etc.

7
Capitulo III: Componentes de una Plataforma Big Data

Las organizaciones han atacado esta problemtica desde diferentes ngulos.


Todas esas montaas de informacin han generado un costo potencial al no
descubrir el gran valor asociado. Desde luego, el ngulo correcto que
actualmente tiene el liderazgo en trminos de popularidad para analizar enormes
cantidades de informacin es la plataforma de cdigo abierto Hadoop.
Hadoop est inspirado en el proyecto de Google File System(GFS) y en el
paradigma de programacin MapReduce, el cual consiste en dividir en dos
tareas (mapper reducer) para manipular los datos distribuidos a nodos de un
clster logrando un alto paralelismo en el procesamiento. Hadoop est
compuesto de tres piezas: Hadoop Distributed File System (HDFS), Hadoop
MapReduce y Hadoop Common.

Hadoop Distributed File System(HDFS):


Los datos en el clster de Hadoop son divididos en pequeas piezas
llamadas bloques y distribuidas a travs del clster; de esta manera, las
funciones map y reduce pueden ser ejecutadas en pequeos subconjuntos y esto
provee de la escalabilidad necesaria para el procesamiento de grandes
volmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia
HDFS. Observe que cada bloque es almacenado tres veces y al menos un
bloque se almacena en un diferente rack para lograr redundancia.

Figura 2. Ejemplo de HDFS

8
Hadoop MapReduce:
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se
refiere a dos procesos separados que Hadoop ejecuta. El primer proceso map,
el cual toma un conjunto de datos y lo convierte en otro conjunto, donde los
elementos individuales son separados en tuplas (pares de llave/valor). El
proceso reduce obtiene la salida de map como datos de entrada y combina las
tuplas en un conjunto ms pequeo de las mismas. Una fase intermedia es la
denominada Shuffle la cual obtiene las tuplas del proceso map y determina que
nodo procesar estos datos dirigiendo la salida a una tarea reduce en especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de
MapReduce.

Figura 3. Ejemplo de MapReduce

Hadoop Common:
Hadoop Common Components son un conjunto de libreras que soportan varios
subproyectos de Hadoop. Adems de estos tres componentes principales de
Hadoop, existen otros proyectos relacionados los cuales son definidos a
continuacin:
Avro
Es un proyecto de Apache que provee servicios de serializacin. Cuando se
guardan datos en un archivo, el esquema que define ese archivo es guardado
dentro del mismo; de este modo es ms sencillo para cualquier aplicacin leerlo
posteriormente puesto que el esquema est definido dentro del archivo.

9
Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un modelo
de almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes
volmenes de datos en forma distribuida. Twitter es una de las empresas que
utiliza Cassandra dentro de su plataforma.

Chukwa
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit
para desplegar los resultados del anlisis y monitoreo.

Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente
hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen
tres entidades principales: sources, decorators y sinks. Un source es
bsicamente cualquier fuente de datos, sink es el destino de una operacin en
especfico y un decorator es una operacin dentro del flujo de datos que
transforma esa informacin de alguna manera, como por ejemplo comprimir o
descomprimir los datos o alguna otra operacin en particular sobre los mismos.

HBase
Es una base de datos columnar (column-oriented database) que se ejecuta en
HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos
relacional. Cada tabla contiene filas y columnas como una base de datos
relacional. HBase permite que muchos atributos sean agrupados
llamndolos familias de columnas, de tal manera que los elementos de una
familia de columnas son almacenados en un solo conjunto. Eso es distinto a las
bases de datos relacionales orientadas a filas, donde todas las columnas de una
fila dada son almacenadas en conjunto. Facebook utiliza HBase en su plataforma
desde noviembre del 2010.

Hive
Es una infraestructura de data warehouse que facilita administrar grandes
conjuntos de datos que se encuentran almacenados en un ambiente distribuido.
Hive tiene definido un lenguaje similar a SQL llamado Hive Query
Language(HQL), estas sentencias HQL son separadas por un servicio de Hive y
son enviadas a procesos MapReduce ejecutados en el cluster de Hadoop.

10
El siguiente es un ejemplo en HQL para crear una tabla, cargar datos y obtener
informacin de la tabla utilizando Hive:

CREATE TABLE Tweets (from_user STRING, userid BIGINT,


1 tweettext STRING, retweets INT)
2 COMMENT 'This is the Twitter feed table'
3 STORED AS SEQUENCEFILE;
4 LOAD DATA INPATH 'hdfs://node/tweetdata' INTO TABLE
5 TWEETS;
6 SELECT from_user, SUM(retweets)
7 FROM TWEETS
GROUP BY from_user;

Jaql
Fue donado por IBM a la comunidad de software libre. Query Language for
Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que
permite la explotacin de datos en formato JSON diseado para procesar
grandes volmenes de informacin. Para explotar el paralelismo, Jaql reescribe
los query de alto nivel (cuando es necesario) en query de "bajo nivel" para
distribuirlos como procesos MapReduce. Internamente el motor de Jaql
transforma el query en procesos map y reduce para reducir el tiempo de
desarrollo asociado en analizar los datos en Hadoop. Jaql posee de una
infraestructura flexible para administrar y analizar datos semiestructurados como
XML, archivos CSV, archivos planos, datos relacionales, etc.

Lucene
Es un proyecto de Apache bastante popular para realizar bsquedas sobre
textos. Lucene provee de libreras para indexacin y bsqueda de texto. Ha sido
principalmente utilizado en la implementacin de motores de bsqueda (aunque
hay que considerar que no tiene funciones de "crawling" ni anlisis de
documentos HTML ya incorporadas). El concepto a nivel de arquitectura de
Lucene es simple, bsicamente los documentos (document) son dividos en
campos de texto (fields) y se genera un ndice sobre estos campos de texto. La
indexacin es el componente clave de Lucene, lo que le permite realizar
bsquedas rpidamente independientemente del formato del archivo, ya sean
PDFs, documentos HTML, etc.

11
Oozie
Como pudo haber notado, existen varios procesos que son ejecutados en
distintos momentos los cuales necesitan ser orquestados para satisfacer las
necesidades de tan complejo anlisis de informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la
coordinacin entre cada uno de los procesos.
Permite que el usuario pueda definir acciones y las dependencias entre dichas
acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico
llamado Directed Acyclical Graph (DAG), y es acclico puesto que no permite
ciclos en el grafo; es decir, solo hay un punto de entrada y de salida y todas las
tareas y dependencias parten del punto inicial al punto final sin puntos de retorno.
Un ejemplo de un flujo de trabajo en Oozie se representa de la siguiente manera:

Figura 4. Flujo de trabajo en Oozie

Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop
enfocarse ms en analizar todos los conjuntos de datos y dedicar menos tiempo
en construir los programas MapReduce.
Tal como su nombre lo indica al igual que cualquier cerdo que come cualquier
cosa, el lenguaje PigLatinfue diseado para manejar cualquier tipo de dato
y Pig es el ambiente de ejecucin donde estos programas son ejecutados, de
manera muy similar a la relacin entre la mquina virtual de Java (JVM) y una
aplicacin Java.

12
ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por
aplicaciones para asegurarse de que los procesos a travs de un cluster sean
serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se
persiste en memoria en los servidores ZooKeeper llamado znode. Este
archivo znode puede ser actualizado por cualquier nodo en el cluster, y cualquier
nodo puede registrar que sea informado de los cambios ocurridos en ese znode;
es decir, un servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a travs de un
cluster distribuido actualizando su estatus en cada znode, el cual informar al
resto del cluster sobre el estatus correspondiente de algn nodo en especfico.
Como podr observar, ms all de Hadoop, una plataforma de Big Data consiste
de todo un ecosistema de proyectos que en conjunto permiten simplificar,
administrar, coordinar y analizar grandes volmenes de informacin.

13
Captulo IV: Procesos Tcnicos

Captura:
De dnde provienen todos estos datos? Los fabricamos directa e
indirectamente segundo tras segundo. Un iPhone hoy en da tiene ms
capacidad de cmputo que la NASA cuando el hombre lleg a la luna por lo que
la cantidad de datos generados por persona y en unidad de tiempo es muy
grande. Catalogamos la procedencia de los datos segn las siguientes
categoras:

Generados por las personas: el hecho de enviar correos electrnicos o


mensajes por WhatsApp, publicar un estado en Facebook, tuitear contenidos
o responder a una encuesta por la calle son cosas que hacemos a diario y
que crean nuevos datos y metadatos que pueden ser analizados. Se estima
que cada minuto al da se envan ms de 200 millones de correos
electrnicos, se comparten ms de 700 000 piezas de contenido
en Facebook, se realizan dos millones de bsquedas en Google o se editan
48 horas de vdeo en YouTube. Por otro lado, las trazas de utilizacin en un
sistema ERP, incluir registros en una base de datos o introducir informacin
en una hoja de clculo son otras formas de generar estos datos.
Transacciones de datos: la facturacin, las llamadas o las transaccin entre
cuentas generan informacin que tratada pueden ser datos relevantes. Un
ejemplo ms claro lo encontraremos en las transacciones bancarias: lo que
el usuario conoce como un ingreso de X euros, la computacin lo interpretar
como una accin llevada a cabo en una fecha y momento determinado, en
un lugar concreto, entre unos usuarios registrados, y ms metadatos.
Marketing electrnico y web: se generan una gran cantidad de datos cuando
se navega por internet. Con la web 2.0 se ha roto el paradigma webmaster-
contenido-lector y los mismos usuarios se convierten en creadores de
contenido gracias a su interaccin con el sitio. Existen muchas herramientas
de seguimiento utilizadas en su mayora con fines de marketing y anlisis de
negocio. Los movimientos de ratn quedan grabados en mapas de calor y
queda registro de cunto pasamos en cada pgina y cundo las visitamos.

14
Mquina a mquina (machine to machine, M2M): son las tecnologas que
comparten datos con dispositivos: medidores, sensores de temperatura, de
luz, de altura, de presin, de sonido que transforman las magnitudes fsicas
o qumicas y las convierten en datos. Existen desde hace dcadas, pero la
llegada de las comunicaciones inalmbricas (Wi-Fi, Bluetooth, RFID) ha
revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en
la automocin o los sensores de signos vitales en la medicina.
Biomtrica: son el conjunto de datos que provienen de la seguridad, defensa
y servicios de inteligencia. Son cantidades de datos generados por lectores
biomtricos como escneres de retina, escneres de huellas digitales, o
lectores de cadenas de ADN. El propsito de estos datos es proporcionar
mecanismos de seguridad y suelen estar custodiadas por los ministerios de
defensa y departamentos de inteligencia. Un ejemplo de aplicacin es el
cruce de ADN entre una muestra de un crimen y una muestra en
nuestra base de datos.

Transformacin:
Una vez encontradas las fuentes de los datos necesarios, muy posiblemente
dispongamos de un sinfn de tablas de origen sin estar relacionadas. El siguiente
objetivo consta en hacer que los datos se recojan en un mismo lugar y darles un
formato.

Aqu entran en juego las plataformas extraer, transformar y cargar (ETL). Su


propsito es extraer los datos de las diferentes fuentes y sistemas, para despus
hacer transformaciones (conversiones de datos, limpieza de datos sucios,
cambios de formato) y finalmente cargar los datos en la base de datos o almacn
de datos especificada. Un ejemplo de plataforma ETL es el Pentaho Data
Integration, ms concretamente su aplicacin Spoon.

Almacenamiento NoSQL:
El trmino NoSQL se refiere a Not Only SQL y son sistemas de almacenamiento
que no cumplen con el esquema entidad-relacin. Proveen un sistema de
almacenamiento mucho ms flexible y concurrente y permiten manipular
grandes cantidades de informacin de manera mucho ms rpida que las bases
de datos relacionales.

Distinguimos cuatro grandes grupos de bases de datos NoSQL:


15
Almacenamiento clave-valor (key-value): los datos se almacenan de forma
similar a los mapas o diccionarios de datos, donde se accede al dato a partir
de una clave nica. Los valores (datos) son aislados e independientes entre
ellos, y no son interpretados por el sistema. Pueden ser variables simples
como enteros o caracteres, u objetos. Por otro lado, este sistema de
almacenamiento carece de una estructura de datos clara y establecida, por
lo que no requiere un formateo de los datos muy estricto.

Son tiles para operaciones simples basadas en las claves. Un ejemplo es el


aumento de velocidad de carga de un sitio web que pueden utilizar diferentes
perfiles de usuario, teniendo mapeados los archivos que hay que incluir segn
el id de usuario y que han sido calculados con anterioridad. Apache
Cassandra es la tecnologa de almacenamiento clave-valor ms reconocida por
los usuarios.

Almacenamiento documental: las bases de datos documentales guardan un


gran parecido con las bases de datos Clave-Valor, diferencindose en el dato
que guardan. Si en la anterior no requera una estructura de datos concreta,
en este caso guardamos datos semiestructurados. Estos datos pasan a
llamarse documentos, y pueden estar formateados en XML, JSON, Binary
JSON o el que acepte la misma base de datos. Todos los documentos tienen
una clave nica con la que puede ser accedido e identificado explcitamente.
Estos documentos no son opacos al sistema, por lo que pueden ser
interpretados y lanzar queries sobre ellos. Un ejemplo que aclare cmo se
usa lo encontramos en un blog: se almacena el autor, la fecha, el ttulo, el
resumen y el contenido del post.

CouchDB o MongoDB son quiz las ms conocidas. Hay que hacer mencin
especial a MapReduce, una tecnologa de Google inicialmente diseada para su
algoritmo PageRank, que permite seleccionar un subconjunto de datos,
agruparlos o reducirlos y cargarlos en otra coleccin, y a Hadoop que es una
tecnologa de Apache diseada para almacenar y procesar grandes cantidades
de datos.

Almacenamiento en grafo: las bases de datos en grafo rompen con la idea


de tablas y se basan en la teora de grafos, donde se establece que la
informacin son los nodos y las relaciones entre la informacin son las
aristas, algo similar en el modelo relacional.

16
Su mayor uso se contempla en casos de relacionar grandes cantidades
de datos que pueden ser muy variables. Por ejemplo, los nodos pueden
contener objetos, variables y atributos diferentes en unos y los otros. Las
operaciones de join se sustituyen por recorridos a travs del grafo, y se
guarda una lista de adyacencias entre los nodos. Encontramos un
ejemplo en las redes sociales: en Facebook cada nodo se considera
un usuario, que puede tener aristas de amistad con otros usuarios,
o aristas de publicacin con nodos de contenidos. Soluciones
como Neo4J y GraphDB son las ms conocidas dentro de las bases de
datos en grafo.

Almacenamiento orientado a columnas: por ltimo, el almacenamiento


Column-Oriented es parecido al Documental. Su modelo de datos es
definido como un mapa de datos multidimensional poco denso,
distribuido y persistente. Se orienta a almacenar datos con tendencia a
escalar horizontalmente, por lo que permite guardar
diferentes atributosy objetos bajo una misma clave. A diferencia
del documental y el clave-valor, en este caso se pueden almacenar
varios atributos y objetos, pero no sern interpretables directamente por
el sistema. Permite agrupar columnas en familias y guardar la informacin
cronolgicamente, mejorando el rendimiento. Esta tecnologa se
acostumbra a usar en casos con 100 o ms atributos por clave. Su
precursor es BigTable de Google, pero han aparecido nuevas soluciones
como HBase o HyperTable.

Anlisis de datos:
Teniendo los datos necesarios almacenados segn diferentes tecnologas
de almacenamiento, nos daremos cuenta que necesitaremos diferentes tcnicas
de anlisis de datos como las siguientes:

Asociacin: permite encontrar relaciones entre diferentes variables. Bajo


la premisa de causalidad, se pretende encontrar una prediccin en el
comportamiento de otras variables. Estas relaciones pueden ser los
sistemas de ventas cruzadas en los comercios electrnicos.
Minera de datos (data mining): tiene como objetivo encontrar
comportamientos predictivos.

17
Engloba el conjunto de tcnicas que combina mtodos estadsticos y
de aprendizaje automtico con almacenamiento en bases de datos. Est
estrechamente relacionada con los modelos utilizados para descubrir
patrones en grandes cantidades de datos.

Agrupacin (clustering): el anlisis de clsteres es un tipo de minera de


datos que divide grandes grupos de individuos en grupos ms pequeos
de los cuales no conocamos su parecido antes del anlisis. El propsito
es encontrar similitudes entre estos grupos, y el descubrimiento de
nuevos conociendo cules son las cualidades que lo definen. Es una
metodologa apropiada para encontrar relaciones entre resultados y
hacer una evaluacin preliminar de la estructura de los datos analizados.
Existen diferentes tcnicas y algoritmos de clusterizacin.
Anlisis de texto (text analytics): gran parte de los datos generados por
las personas son textos, como e-mails, bsquedas web o contenidos.
Esta metodologa permite extraer informacin de estos datos y as
modelar temas y asuntos o predecir palabras.

Visualizacin de datos

FIgura 5. Imagen de visualizacin de datos

Tal y como el Instituto Nacional de Estadstica dice en sus tutoriales, una imagen
vale ms que mil palabras, o que mil datos. Nuestra mente agradecer mucho
ms la visualizacin amigable de unos resultados estadsticos en grficos o
mapas que no en tablas con nmeros y conclusiones.

18
En los macrodatos se llega un paso ms all: parafraseando a Edward Tufte,
uno de los expertos en visualizacin de datos ms reconocidos a nivel mundial
"El mundo es complejo, dinmico, multidimensional, el papel es esttico y plano.
Cmo vamos a representar la rica experiencia visual del mundo en la mera
planicie?.
Mondrian es una plataforma que permite visualizar la informacin a travs de los
anlisis llevados a cabo sobre los datos que disponemos. Con esta plataforma
se intenta llegar a un pblico ms concreto, y una utilidad ms acotada como
un Cuadro de Mando Integral de una organizacin. Por otro lado,
las infografas se han vuelto un fenmeno viral, donde se recogen los resultados
de los diferentes anlisis sobre nuestros datos, y son un material atractivo,
entretenido y simplificado para audiencias masivas.

19
Captulo V: Tecnologas del Big Data

Existen muchsimas herramientas para tratar con big data. Algunos ejemplos
incluyen Hadoop, NoSQL, Cassandra, Inteligencia empresarial, Aprendizaje
automtico y MapReduce. Estas herramientas tratan con algunos de los tres
tipos de big data.

Datos estructurados: datos que tienen bien definidos su longitud y su formato,


como las fechas, los nmeros o las cadenas de caracteres. Se almacenan
en tablas. Un ejemplo son las bases de datos relacionales y las hojas de
clculo.
Datos no estructurados: datos en el formato tal y como fueron recolectados,
carecen de un formato especfico. No se pueden almacenar dentro de una
tabla ya que no se puede desgranar su informacin a tipos bsicos de datos.
Algunos ejemplos son los PDF, documentos multimedia, correos
electrnicos o documentos de texto.
Datos semiestructurados: datos que no se limitan a campos determinados, pero
que contiene marcadores para separar los diferentes elementos. Es una
informacin poco regular como para ser gestionada de una forma estndar.
Estos datos poseen sus propios metadatos semiestructurados que describen
los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados
por convencin. Un ejemplo es el HTML, el XML o el JSON.

20
Captulo VI: Aplicaciones Tcnicas

ENTENDIENDO Y SEGMENTANDO A LOS CLIENTES


Marketing y ventas son quiz las reas de mayor aplicacin de big data en la
actualidad. Los datos se utilizan para comprender mejor a los clientes, sus
comportamientos y preferencias.
Las empresas estn dispuestas a ampliar los centros de datos tradicionales con
los de redes sociales, logs de navegacin, anlisis de textos y datos de sensores
para obtener una imagen completa de su cliente.
El objetivo principal es en la mayora de casos crear modelos predictivos. Como
vimos en un artculo anterior, tuvo bastante repercusin la noticia de que la
cadena de distribucin Target fue capaz de detectar cundo sus clientes
esperaban un beb. Las empresas de telecomunicaciones pueden gracias al big
data predecir mejor el churn de clientes.
Los hipermercados pueden predecir mejor qu productos se vendern mejor, y
las aseguradoras de coches pueden comprender mejor cmo conducen sus
clientes.
Incluso las campaas electorales pueden optimizarse gracias a big data
analytics. Hay quienes sostienen que las recientes elecciones presidenciales en
varios pases han sido ganadas por los equipos con mayor capacidad de
entender y aplicar el anlisis de datos para buscar las preferencias de votantes
y llegar a ellos por sus canales preferidos.

MEJORANDO LA CIENCIA Y LA INVESTIGACIN


La investigacin cientfica se est viendo transformada por las nuevas
posibilidades que ofrece el big data.
El CERN (laboratorio suizo de fsica nuclear con su gran colisionador de
hadrones), uno de los mayores generadores de datos, intenta descubrir los
secretos del universo gracias a los datos del acelerador de partculas.
Aunque el centro de datos del CERN cuenta con 65.000 procesadores para
analizar los 30 petabytes de datos, no es suficiente.
Por ello distribuyen la capacidad de computacin entre miles de ordenadores
repartidos entre otros 150 centros de datos por todo el mundo para analizar los
datos.
Esta capacidad de computacin distribuida que de otra manera sera imposible
de procesar tambin se emplea en muchas otras reas de la ciencia.

21
OPTIMIZANDO EL RENDIMIENTO DE MQUINAS Y DISPOSITIVOS
El anlisis de big data est ayudando a mquinas y dispositivos a ser ms
inteligentes y autnomos. Un ejemplo que ya es una realidad, el coche
autopilotado de Google. Los coches que usan para el proyecto estn equipados
con cmaras, GPS, conexin a internet, y un abanico de computadoras y
sensores que permiten al vehculo circular de forma segura por la va pblica sin
necesidad de intervencin humana. Tambin se usan herramientas de anlisis
de big data para optimizar las redes de energa a partir de datos de los medidores
inteligentes. podemos tambin aprovechar estas tecnologas para optimizar el
rendimiento de servidores y datawarehouses.

22
CONCLUSIN
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les
podran haber tomado aos en descubrir por si mismos sin el uso de estas
herramientas, debido a la velocidad del anlisis, es posible que el analista de
datos pueda cambiar sus ideas basndose en el resultado obtenido y retrabajar
el procedimiento una y otra vez hasta encontrar el verdadero valor al que se est
tratando de llegar.
Como se pudo notar en el presente artculo, implementar una solucin alrededor
de Big Data implica de la integracin de diversos componentes y proyectos que
en conjunto forman el ecosistema necesario para analizar grandes cantidades
de datos. Sin una plataforma de Big Data se necesitara que desarrollar
adicionalmente cdigo que permita administrar cada uno de esos componentes
como, por ejemplo: manejo de eventos, conectividad, alta disponibilidad,
seguridad, optimizacin y desempeo, depuracin, monitoreo, administracin de
las aplicaciones, SQL y scripts personalizados.

23
BIBLIOGRAFA

Seeger, Marc (21 de septiembre de 2009). Key-Value stores: a practical


overview. Consultado el 1 de enero de 2015.
Martin Hilbert, gur del Big Data: "La democracia no est preparada para
la era digital y est siendo destruida" http://www.bbc.com/mundo/noticias-
internacional-39511606
Carrillo Ruiz, Jos Antonio; Marco de Lucas, Jess E.; Cases Vega,
Fernando; Dueas Lpez, Juan Carlos; Cristino Fernndez, Jos;
Gonzlez Muoz de Morales, Guillermo; Pereda Laredo, Luis Fernando
(marzo de 2013). Big Data en los entornos de Defensa y Seguridad

24

Das könnte Ihnen auch gefallen