Beruflich Dokumente
Kultur Dokumente
Definicin
Big Data o Datos masivos es un trmino que hace referencia a una cantidad
de datos tal que supera la capacidad del software convencional para ser
capturados, administrados y procesados en un tiempo razonable. El volumen
de los datos masivos crece constantemente. En 2012 se estimaba su tamao
de entre una docena de terabytes hasta varios petabytes de datos en un nico
conjunto de datos. En la metodologa MIKE2.0 dedicada a investigar temas
relacionados con la gestin de informacin,definen Big Data en trminos de
permutaciones tiles, complejidad y dificultad para borrar registros individuales.
En 2001, en un informe de investigacin que se fundamentaba en congresos y
presentaciones relacionadas,13 el analista Doug Laney del META Group (ahora
Gartner) defina el crecimiento constante de datos como una oportunidad y un
reto para investigar en el volumen, la velocidad y la variedad. Gartner contina
usando datos masivos como referencia.14 Adems, grandes proveedores del
mercado de datos masivos estn desarrollando soluciones para atender las
demandas ms crticas de cmo procesar tal cantidad de datos, como MapR y
Cloudera.
Tecnologa
Existen muchsimas herramientas para tratar con Big Data. Nombres como
Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning,
MapReduce son slo algunos de los ms conocidos. Estas herramientas
tratan con algunos de los tres tipos de Big Data:15
Captura
Transformacin
Una vez encontradas las fuentes de los datos necesarios, muy posiblemente
dispongamos de un sinfn de tablas de origen sin estar relacionadas. El
siguiente objetivo consta en hacer que los datos se recojan en un mismo lugar
y darles un formato.
Aqu entran en juego las plataformas ETL (Extract, Transform and Load). Su
propsito es extraer los datos de las diferentes fuentes y sistemas, para
despus hacer transformaciones (conversiones de datos, limpieza de datos
sucios, cambios de formato) y finalmente cargar los datos en la base de
datos o Data Warehouse especificada.21 Un ejemplo de plataforma ETL es el
Pentaho Data Integration, ms concretamente su aplicacin Spoon.
Almacenamiento NoSQL
Todos los documentos tienen una clave nica con la que puede ser
accedido e identificado explcitamente. Estos documentos no son
opacos al sistema, por lo que pueden ser interpretados y lanzar queries
sobre ellos.23 Un ejemplo que aclare cmo se usa lo encontramos en un
blog: se almacena el autor, la fecha, el ttulo, el resumen y el contenido
del post.
CouchDB o MongoDB25 son quiz las ms conocidas. Hay que hacer mencin
especial a MapReduce, una tecnologa de Google inicialmente diseada para
su algoritmo PageRank, que permite seleccionar un subconjunto de datos,
agruparlos o reducirlos y cargarlos en otra coleccin, y a Hadoop que es una
tecnologa de Apache diseada para almacenar y procesar grandes cantidades
de datos.
Anlisis de datos
Visualizacin de datos
Utilidad
Este conjunto de tecnologas se puede usar en una gran variedad de mbitos,
como los siguientes.
Empresarial
Redes Sociales: Cada vez ms tendemos a subir a las redes sociales toda
nuestra actividad y la de nuestros conocidos. Las empresas utilizan esta
informacin para cruzar los datos de los candidatos a un trabajo. Oracle ha
desarrollado una herramienta llamada Taleo Social Sourcing,32 la cual est
integrada con las APIs de Facebook, Twitter y LinkedIn. Gracias a su uso, los
departamentos de recursos humanos pueden ver, entrando la identidad del
candidato, su perfil social y profesional en cuestin de segundos. Por otro lado,
les permite crear una lista de posibles candidatos segn el perfil profesional
necesario, y as pasar a ofrecer el puesto de trabajo a un pblico mucho ms
objetivo. Por otro lado, Gate Gourmet una compaa de catering de
aerolneas,- experimentaba una tasa de abandono del 50% de sus trabajadores
asignados al aeropuerto de Chicago, y sospecharon que el problema exista en
el tiempo dedicado al viaje. Para demostrarlo, hicieron anlisis juntando varios
data sets de sus sistemas internos y de otros externos como datos
demogrficos, datos de trfico y datos de uso de redes sociales. Los resultados
que obtuvieron fueron patrones que relacionaban muy consistentemente la alta
tasa de abandono con la distancia del lugar de trabajo a casa y la accesibilidad
al transporte pblico.33
Consumo: Amazon es lder en ventas cruzadas. El xito se basa en la minera
de datos masiva basando los patrones de compra de un usuario cruzados con
los datos de compra de otro, creando as anuncios personalizados y boletines
electrnicos que incluyen justo aquello que el usuario quiere en ese instante. 34
Offline tambin nos encontramos con casos de aplicacin Big Data. Nuestros
telfonos mviles envan peticiones de escucha WiFi a todos los puntos de
acceso con los que nos cruzamos. Algunas compaas han decidido hacer un
trazo de estas peticiones con su localizacin y direccin MAC para saber qu
dispositivo hace cul ruta dentro de un recinto. No hay que asustarse ya que
con la direccin MAC no pueden invadir nuestra intimidad. 35 Las grandes
superficies aprovechan estos datos para sacar informacin como contabilizar
cunto tiempo pasan los clientes en su interior, qu rutas siguen, dnde
permanecen ms tiempo (ya sea escogiendo un producto o el tiempo de espera
en caja) o cul es la frecuencia de visita.
Big Data e intimidad: La cantidad de datos creados anualmente es de 2,8
Zettabytes en 2012, de los cuales el 75% son generados por los individuos
segn su uso de la red ya sea bajarse un archivo, conectar el GPS o enviar un
correo electrnico. Se calcula que un oficinista medio genera 1,8 Terabytes al
ao por lo que son unos 5 GB al da de informacin. 36 Aqu entran en juego las
empresas llamadas corredores de datos. Acxiom es una de ellas, y posee unas
1.500 trazas de datos de ms de 500 millones de usuarios de internet. Todos
estos datos son transformados y cruzados para incluir al usuario analizado en
uno de los 70 segmentos de usuarios, llamado PersonicX. 37 Descrito como un
resumen de indicadores de estilo de vida, intereses y actividades, esta
corredura de datos basa su clustering en los acontecimientos vitales y es
capaz de predecir ms de 3.000 reacciones ante estmulos de estos clientes.
En un primer momento captaba la informacin de los hechos reales y no
virtuales de los usuarios. 38 En febrero de 2013, Facebook acord la cesin de
la informacin personal de sus usuarios con Acxiom y otros corredores de
datos haciendo cruzar las actividades de la vida off-line con las actividades on-
line [30]. A nivel usuario, nos encontramos con Google Location History: un
servicio de Google que registra las ubicaciones en las cuales ha estado un
usuario que lleva el mvil encima, y con el servicio de localizacin activado
(que por defecto lo est en los terminales con Android). Al acceder a l muestra
un mapa con las rutas que ha seguido el usuario, con la hora de llegada y
salida de cada ubicacin.39 Gracias a esta utilidad se crean algoritmos de
recomendaciones de amigos en redes sociales y ubicaciones a visitar basados
en el historial de ubicaciones del usuario. 40 Por ltimo, Google pag 3.200
millones de dlares por Nest, una empresa de detectores de humo. 41 Ahora
Google ha abierto Nest Labs, donde se pretende desarrollar sensores para
convertir la casa en una Smart home. Incluir estos sensores permitir saber por
ejemplo cundo hay alguien o no en casa gracias a su interaccin con los
wearables, a qu temperatura est el ambiente o detectar si hay algn peligro
dentro como fuego.42
Deportes
El Proyecto Aloja46 ha sido iniciado por una apuesta en comn del Barcelona
Supercomputing Center (BSC) y Microsoft Research. El objetivo de este
proyecto de Big Data quiere conseguir una optimizacin automtica en
despliegues de Hadoop en diferentes infraestructuras. [40]
Caso especfico: Sostenibilidad: Conservation International es una
organizacin con el propsito de concienciar a la sociedad de cuidar el entorno
de una manera responsable y sostenible. Con la ayuda de la plataforma Vertica
Analytics de HP, han situado 1.000 cmaras a lo largo de 16 bosques en 4
continentes. Estas cmaras incorporan unos sensores, y a modo de cmara
oculta graban el comportamiento de la fauna. Con estas imgenes y los datos
de los sensores (precipitaciones, temperatura, humedad, solar) consiguen
informacin sobre cmo el cambio climtico o el desgaste de la tierra afecta en
su comportamiento y desarrollo.