Herramientas para El Análisis de Big Data

Herramientas para el Análisis de Big Data
Practica Individual con Evaluación entre Compañeros
Proyecto:
Aplicando la Ciencia de Datos en una organización
Elaborado por: William Alexie Rebolone

Versión: 1.0
Noviembre de 2020
Tabla de contenidos
I. INTRODUCCIÓN ............................................................................................................................................. 1
1.1 ANTECEDENTES ............................................................................................................................................... 1
1.2 OBJETIVO GENERAL......................................................................................................................................... 1
1.3 OBJETIVOS ESPECÍFICOS. ................................................................................................................................. 1
II. ANÁLISIS DE LA INFORMACIÓN PROPORCIONADA .......................................................................... 2
2.1 COMPRESIÓN DE LOS DATOS ............................................................................................................................ 2
2.2 MODELADO DE DATOS..................................................................................................................................... 6
III. CONCLUSIONES Y RECOMENDACIONES. ......................................................................................... 7
3.1 LENGUAJE DE PROGRAMACIÓN. ....................................................................................................................... 7
3.2 PREDICCIONES OBTENIDAS. ............................................................................................................................. 7
3.3 ADECUACIONES DE DATOS PARA ANÁLISIS PREDICTIVO ................................................................................. 7
3.4 MOTOR DE BASE DE DATOS. ............................................................................................................................ 8
3.5 SERVICIOS EN LA NUBE RECOMENDADOS. ....................................................................................................... 8
I. Introducción
En los proyectos de ciencias de datos es necesario contar con las herramientas

tecnológicas adecuadas para el procesamiento, almacenaje y acceso a la información,
información que en muchos casos incluye diversos tipos de datos o grandes cantidades
de ellos sobre los cuales las herramientas tradicionales no nos darían las misma facilidad
y rendimiento que las herramientas para Big Data nos ofrecen.
En este documento se presenta un pequeño proyecto desarrollado para la Librería

Iztaccihuatl la cual necesita definir sus herramientas de ciencia de datos.
1.1Antecedentes
La Librería Iztaccihuatl ubicada en la ciudad de Monterey, Nuevo León, México se ve
actualmente en la necesidad de mejorar sus indicadores de desempeño y a la vez
desarrollar una mejor estrategia para la toma de decisiones. La librería cuenta con un
sitio web en donde se generan calificaciones de los libros por parte de los clientes. La
librería ha entregado una serie de documentos los cuales se analizan en el capitulo dos
de este documento.
1.2 Objetivo General

Identificar las herramientas tecnológicas optimas necesarias para el procesamiento,
almacenaje y consulta de los datos proporcionados por la librería, orientando estas
recomendaciones a una solución basada en la nube.
1.3 Objetivos Específicos.
• Definir el tipo de Motor de Base de Datos a Emplear.
• Definir el lenguaje de programación idóneo para el procesamiento de los datos
• Definir los servicios de la nube a contratar
Página 1 28/11/2020
• Considerar que los elementos anteriores deben de permitir la realización de un

análisis predictivo
II. Análisis de la Información Proporcionada
2.1 Compresión de los Datos
Para el presente análisis, contamos con una serie de archivos con datos en formato texto
delimitado por comas, que representan la operación de la librería. Una descripción de
estos sets de datos se presenta a continuación.
El archivo Books es un catálogo maestro de 10,000 registros que representan los datos
generales de cada libro existente en la librería, además de contener el promedio de
clasificación de cada libro de acuerdo a las votaciones y compras de los clientes.
Una muestra de los datos se presenta a continuación
La descripción de la estructura del archivo es la siguiente
Nombre Dato Descripción
id Identificador del registro
Book Id Identificador del libro
Página 2 28/11/2020
Number Editions Número de ediciones
ISBN Clave estándar internacional del libro
ISBN13 Clave estándar extendida internacional del libro
Authors Autor del libro
Original Publication Fecha de publicación
Original Title Título original del libro
Title Título del libro
Language Code Clave de idioma del libro
Average Rating Promedio de la clasificación del libro
Image Enlace a la imagen de la portada del libro
Small Image Enlace a la imagen en versión optimizada de la portada del libro.
El archivo to_read contiene 912,705 registros que representan las recomendaciones de

libros para leer que cada cliente o usuario ha realizado usando el sitio web.
Una muestra de los datos se presenta a continuación
Página 3 28/11/2020
La estructura del archivo es la siguiente:
User Id Identificador del cliente/usuario que clasifico un libro
El archivo top_books contiene 120 registros con el top 20 de los libros mas vendidos de
acuerdo a una clasificación general. El archivo contiene una serie de atributos de cada
libro desde características de identificación y generales, hasta ventas por volumen,
precios recomendados, etc.
Un ejemplo de los contenidos de este archivo se muestra a continuación.
La estructura de archivo es la siguiente:
Position Posición del libro en la clasificación del libro
ISBN Clave estándar extendida internacional del libro
Title Título del libro
Author Autor del libro
Página 4 28/11/2020
Imprint Editorial
Publisher Group Grupo Editorial
Volume Volumen de ventas hasta el 2010
Value Ventas determinadas por el volumen
RRP Precio recomendado para minoristas
ASP Precio promedio para venta
Binding Tipo de encuadernación
Publ Date Fecha de publicación
Product Class Clasificación del libro
Classification Clasificación General del libro
El archivo Ratings contiene 981,756 registros con los datos de los libros mas votados por
los clientes dentro del sitio web de la librería.
Una muestra de los datos se presenta a continuación:
La estructura del archivo se muestra a continuación;
User Id Identificador del cliente/usuario que clasifico un libro
Página 5 28/11/2020
Rating Nivel de clasificación del libro.
2.2 Modelado de Datos
Después de analizar la información proporcionada y su estructura, nos damos cuenta que

fácilmente se puede generar un modelo relacional como se presenta a continuación.
Las relaciones entre los distintos archivos se evidencias al analizar su estructura,

conociendo esto y los requerimientos podemos realizar ciertas conclusiones y
recomendaciones que se presentan en el siguiente capítulo.
Página 6 28/11/2020
III. Conclusiones y Recomendaciones.
3.1 Lenguaje de programación.

Dado que se trabajará con mucha información estadística y se prevée realizar análisis
predictivos, el lenguaje seleccionado es “R” el cual ya contiene una gran cantidad de
librerías especializadas en estos tipos de análisis, además de contar con el apoyo de una
comunidad de profesionales de las matemáticas estadísticas. A diferencia de las tuplas
de Phyton, R utiliza estructura de datos que se cargan en memoria denominadas
DataFrame, estas estructuras pueden cargarse rápidamente desde archivos textos como
los proporcionados o desde una base de datos. Para los fines de este proyecto se
recomienda usar el IDE de RStudio (https://rstudio.com) el cual al igual que el ambiente
de R esta disponible sin costo en su versión Open Source Edition.
3.2 Predicciones obtenidas.

Basado en la información proporcionada las predicciones que se podrían obtener son.
1. Basados en los ratings dados a los libros podríamos predecir los libros que mayor
demandan tendrán.
2. Basado también en lo anterior, que género y autores de libros se deberían adquirir
ya que libros del mismo género o autor poseen altos puntajes.
3. Los usuarios que estarían interesados en nuevos libros de acuerdo a sus
recomendaciones.
3.3 Adecuaciones de Datos para Análisis Predictivo
Adicionando información de las fechas que los usuarios interactuaron con la

pagina web y recomendaron libros o visitaron, podríamos realizar un mejor análisis
predictivo basado en tiempo, por ejemplo los días que mas demanda o visitan se
deberían esperar o si hay una relación entre tiempo, meses o temporadas para los
gustos de géneros, autores o títulos de los usuarios, etc.
Página 7 28/11/2020
3.4 Motor de Base de Datos.

Como se describe a final del capitulo dos de este documento, los archivos proporcionados
claramente muestran una estructura relacional, de la misma forma para garantizar una
rápida lectura de los datos que se almacenen de las predicciones una base SQL como
PostGress, MariaDB, Sql Server o Azure SQL server seria la opción recomendada,
además que permitiría elegir entre distintos productos de acuerdo al presupuesto y las
necesidades que se tengan.
3.5 Servicios en la Nube Recomendados.
Con el objetivo de que nuestra solución cuente con los beneficios intrínsecos ofrecidos
por las soluciones de la nube como la Flexibilidad, el Trabajo Colaborativo, Disponibilidad,
etc. Se recomiendan la adquisición de los siguientes servicios basados en AWS.
Para el servicio de almacenamiento se recomienda la utilización de AWS RDS usando

PostgreSQL como RDBMS, esto nos permitirá contar con una base de datos PostgreSQL
para nuestra información disponible en la nube bajo la plataforma ofrecida por AWS.
Para el computo se recomienda usar Elastic Compute Cloud EC2 con un servidor Linux
donde se realice el procesamiento en R usando RStudio Server, además de se permita
la publicación de una consulta Web que presente los datos generados. EC2 nos permitirá
tener un servidor virtual donde podremos tener el ambiente de R y el RStudio Server para
ejecutar nuestros análisis almacenándolos en la base relacional ofrecida por RDS.
Página 8 28/11/2020

Herramientas para El Análisis de Big Data - Proyecto Individual Evaluado Por Pares

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Herramientas para El Análisis de Big Data - Proyecto Individual Evaluado Por Pares

Hochgeladen von

Copyright:

Verfügbare Formate

Practica Individual con Evaluación entre Compañeros

Aplicando la Ciencia de Datos en una organización

Elaborado por: William Alexie Rebolone

En los proyectos de ciencias de datos es necesario contar con las herramientas

En este documento se presenta un pequeño proyecto desarrollado para la Librería

1.2 Objetivo General

1.3 Objetivos Específicos.

• Definir el tipo de Motor de Base de Datos a Emplear.

• Definir el lenguaje de programación idóneo para el procesamiento de los datos

• Definir los servicios de la nube a contratar

• Considerar que los elementos anteriores deben de permitir la realización de un

II. Análisis de la Información Proporcionada

2.1 Compresión de los Datos

Una muestra de los datos se presenta a continuación

La descripción de la estructura del archivo es la siguiente

Nombre Dato Descripción

id Identificador del registro

Book Id Identificador del libro

Number Editions Número de ediciones

ISBN Clave estándar internacional del libro

ISBN13 Clave estándar extendida internacional del libro

Authors Autor del libro

Original Publication Fecha de publicación

Original Title Título original del libro

Title Título del libro

Language Code Clave de idioma del libro

Average Rating Promedio de la clasificación del libro

Image Enlace a la imagen de la portada del libro

Small Image Enlace a la imagen en versión optimizada de la portada del libro.

El archivo to_read contiene 912,705 registros que representan las recomendaciones de

Una muestra de los datos se presenta a continuación

La estructura del archivo es la siguiente:

Nombre Dato Descripción

User Id Identificador del cliente/usuario que clasifico un libro

Book Id Identificador del libro

Un ejemplo de los contenidos de este archivo se muestra a continuación.

La estructura de archivo es la siguiente:

Nombre Dato Descripción

Position Posición del libro en la clasificación del libro

ISBN Clave estándar extendida internacional del libro

Title Título del libro

Author Autor del libro

Publisher Group Grupo Editorial

Volume Volumen de ventas hasta el 2010

Value Ventas determinadas por el volumen

RRP Precio recomendado para minoristas

ASP Precio promedio para venta

Binding Tipo de encuadernación

Publ Date Fecha de publicación

Product Class Clasificación del libro

Classification Clasificación General del libro

Una muestra de los datos se presenta a continuación:

La estructura del archivo se muestra a continuación;

Nombre Dato Descripción

Book Id Identificador del libro

User Id Identificador del cliente/usuario que clasifico un libro

Rating Nivel de clasificación del libro.

2.2 Modelado de Datos

Después de analizar la información proporcionada y su estructura, nos damos cuenta que

Las relaciones entre los distintos archivos se evidencias al analizar su estructura,

III. Conclusiones y Recomendaciones.

3.1 Lenguaje de programación.