Sie sind auf Seite 1von 10

Herramientas para el Análisis de Big Data

Practica Individual con Evaluación entre Compañeros

Proyecto:

Aplicando la Ciencia de Datos en una organización

Elaborado por: William Alexie Rebolone


Versión: 1.0

Noviembre de 2020
Tabla de contenidos

I. INTRODUCCIÓN ............................................................................................................................................. 1
1.1 ANTECEDENTES ............................................................................................................................................... 1
1.2 OBJETIVO GENERAL......................................................................................................................................... 1
1.3 OBJETIVOS ESPECÍFICOS. ................................................................................................................................. 1
II. ANÁLISIS DE LA INFORMACIÓN PROPORCIONADA .......................................................................... 2
2.1 COMPRESIÓN DE LOS DATOS ............................................................................................................................ 2
2.2 MODELADO DE DATOS..................................................................................................................................... 6
III. CONCLUSIONES Y RECOMENDACIONES. ......................................................................................... 7
3.1 LENGUAJE DE PROGRAMACIÓN. ....................................................................................................................... 7
3.2 PREDICCIONES OBTENIDAS. ............................................................................................................................. 7
3.3 ADECUACIONES DE DATOS PARA ANÁLISIS PREDICTIVO ................................................................................. 7
3.4 MOTOR DE BASE DE DATOS. ............................................................................................................................ 8
3.5 SERVICIOS EN LA NUBE RECOMENDADOS. ....................................................................................................... 8
Herramientas para el Análisis de Big Data

I. Introducción

En los proyectos de ciencias de datos es necesario contar con las herramientas


tecnológicas adecuadas para el procesamiento, almacenaje y acceso a la información,
información que en muchos casos incluye diversos tipos de datos o grandes cantidades
de ellos sobre los cuales las herramientas tradicionales no nos darían las misma facilidad
y rendimiento que las herramientas para Big Data nos ofrecen.

En este documento se presenta un pequeño proyecto desarrollado para la Librería


Iztaccihuatl la cual necesita definir sus herramientas de ciencia de datos.

1.1Antecedentes
La Librería Iztaccihuatl ubicada en la ciudad de Monterey, Nuevo León, México se ve
actualmente en la necesidad de mejorar sus indicadores de desempeño y a la vez
desarrollar una mejor estrategia para la toma de decisiones. La librería cuenta con un
sitio web en donde se generan calificaciones de los libros por parte de los clientes. La
librería ha entregado una serie de documentos los cuales se analizan en el capitulo dos
de este documento.

1.2 Objetivo General


Identificar las herramientas tecnológicas optimas necesarias para el procesamiento,
almacenaje y consulta de los datos proporcionados por la librería, orientando estas
recomendaciones a una solución basada en la nube.

1.3 Objetivos Específicos.

• Definir el tipo de Motor de Base de Datos a Emplear.

• Definir el lenguaje de programación idóneo para el procesamiento de los datos

• Definir los servicios de la nube a contratar

Página 1 28/11/2020
Herramientas para el Análisis de Big Data

• Considerar que los elementos anteriores deben de permitir la realización de un


análisis predictivo

II. Análisis de la Información Proporcionada

2.1 Compresión de los Datos

Para el presente análisis, contamos con una serie de archivos con datos en formato texto
delimitado por comas, que representan la operación de la librería. Una descripción de
estos sets de datos se presenta a continuación.

El archivo Books es un catálogo maestro de 10,000 registros que representan los datos
generales de cada libro existente en la librería, además de contener el promedio de
clasificación de cada libro de acuerdo a las votaciones y compras de los clientes.

Una muestra de los datos se presenta a continuación

La descripción de la estructura del archivo es la siguiente

Nombre Dato Descripción

id Identificador del registro

Book Id Identificador del libro

Página 2 28/11/2020
Herramientas para el Análisis de Big Data

Number Editions Número de ediciones

ISBN Clave estándar internacional del libro

ISBN13 Clave estándar extendida internacional del libro

Authors Autor del libro

Original Publication Fecha de publicación

Original Title Título original del libro

Title Título del libro

Language Code Clave de idioma del libro

Average Rating Promedio de la clasificación del libro

Image Enlace a la imagen de la portada del libro

Small Image Enlace a la imagen en versión optimizada de la portada del libro.

El archivo to_read contiene 912,705 registros que representan las recomendaciones de


libros para leer que cada cliente o usuario ha realizado usando el sitio web.

Una muestra de los datos se presenta a continuación

Página 3 28/11/2020
Herramientas para el Análisis de Big Data

La estructura del archivo es la siguiente:

Nombre Dato Descripción

User Id Identificador del cliente/usuario que clasifico un libro

Book Id Identificador del libro

El archivo top_books contiene 120 registros con el top 20 de los libros mas vendidos de
acuerdo a una clasificación general. El archivo contiene una serie de atributos de cada
libro desde características de identificación y generales, hasta ventas por volumen,
precios recomendados, etc.

Un ejemplo de los contenidos de este archivo se muestra a continuación.

La estructura de archivo es la siguiente:

Nombre Dato Descripción

Position Posición del libro en la clasificación del libro

ISBN Clave estándar extendida internacional del libro

Title Título del libro

Author Autor del libro

Página 4 28/11/2020
Herramientas para el Análisis de Big Data

Imprint Editorial

Publisher Group Grupo Editorial

Volume Volumen de ventas hasta el 2010

Value Ventas determinadas por el volumen

RRP Precio recomendado para minoristas

ASP Precio promedio para venta

Binding Tipo de encuadernación

Publ Date Fecha de publicación

Product Class Clasificación del libro

Classification Clasificación General del libro

El archivo Ratings contiene 981,756 registros con los datos de los libros mas votados por
los clientes dentro del sitio web de la librería.

Una muestra de los datos se presenta a continuación:

La estructura del archivo se muestra a continuación;

Nombre Dato Descripción

Book Id Identificador del libro

User Id Identificador del cliente/usuario que clasifico un libro

Página 5 28/11/2020
Herramientas para el Análisis de Big Data

Rating Nivel de clasificación del libro.

2.2 Modelado de Datos

Después de analizar la información proporcionada y su estructura, nos damos cuenta que


fácilmente se puede generar un modelo relacional como se presenta a continuación.

Las relaciones entre los distintos archivos se evidencias al analizar su estructura,


conociendo esto y los requerimientos podemos realizar ciertas conclusiones y
recomendaciones que se presentan en el siguiente capítulo.

Página 6 28/11/2020
Herramientas para el Análisis de Big Data

III. Conclusiones y Recomendaciones.

3.1 Lenguaje de programación.


Dado que se trabajará con mucha información estadística y se prevée realizar análisis
predictivos, el lenguaje seleccionado es “R” el cual ya contiene una gran cantidad de
librerías especializadas en estos tipos de análisis, además de contar con el apoyo de una
comunidad de profesionales de las matemáticas estadísticas. A diferencia de las tuplas
de Phyton, R utiliza estructura de datos que se cargan en memoria denominadas
DataFrame, estas estructuras pueden cargarse rápidamente desde archivos textos como
los proporcionados o desde una base de datos. Para los fines de este proyecto se
recomienda usar el IDE de RStudio (https://rstudio.com) el cual al igual que el ambiente
de R esta disponible sin costo en su versión Open Source Edition.

3.2 Predicciones obtenidas.


Basado en la información proporcionada las predicciones que se podrían obtener son.

1. Basados en los ratings dados a los libros podríamos predecir los libros que mayor
demandan tendrán.
2. Basado también en lo anterior, que género y autores de libros se deberían adquirir
ya que libros del mismo género o autor poseen altos puntajes.
3. Los usuarios que estarían interesados en nuevos libros de acuerdo a sus
recomendaciones.

3.3 Adecuaciones de Datos para Análisis Predictivo

Adicionando información de las fechas que los usuarios interactuaron con la


pagina web y recomendaron libros o visitaron, podríamos realizar un mejor análisis
predictivo basado en tiempo, por ejemplo los días que mas demanda o visitan se
deberían esperar o si hay una relación entre tiempo, meses o temporadas para los
gustos de géneros, autores o títulos de los usuarios, etc.

Página 7 28/11/2020
Herramientas para el Análisis de Big Data

3.4 Motor de Base de Datos.


Como se describe a final del capitulo dos de este documento, los archivos proporcionados
claramente muestran una estructura relacional, de la misma forma para garantizar una
rápida lectura de los datos que se almacenen de las predicciones una base SQL como
PostGress, MariaDB, Sql Server o Azure SQL server seria la opción recomendada,
además que permitiría elegir entre distintos productos de acuerdo al presupuesto y las
necesidades que se tengan.

3.5 Servicios en la Nube Recomendados.

Con el objetivo de que nuestra solución cuente con los beneficios intrínsecos ofrecidos
por las soluciones de la nube como la Flexibilidad, el Trabajo Colaborativo, Disponibilidad,
etc. Se recomiendan la adquisición de los siguientes servicios basados en AWS.

Para el servicio de almacenamiento se recomienda la utilización de AWS RDS usando


PostgreSQL como RDBMS, esto nos permitirá contar con una base de datos PostgreSQL
para nuestra información disponible en la nube bajo la plataforma ofrecida por AWS.

Para el computo se recomienda usar Elastic Compute Cloud EC2 con un servidor Linux
donde se realice el procesamiento en R usando RStudio Server, además de se permita
la publicación de una consulta Web que presente los datos generados. EC2 nos permitirá
tener un servidor virtual donde podremos tener el ambiente de R y el RStudio Server para
ejecutar nuestros análisis almacenándolos en la base relacional ofrecida por RDS.

Página 8 28/11/2020

Das könnte Ihnen auch gefallen