Beruflich Dokumente
Kultur Dokumente
Proyecto:
Noviembre de 2020
Tabla de contenidos
I. INTRODUCCIÓN ............................................................................................................................................. 1
1.1 ANTECEDENTES ............................................................................................................................................... 1
1.2 OBJETIVO GENERAL......................................................................................................................................... 1
1.3 OBJETIVOS ESPECÍFICOS. ................................................................................................................................. 1
II. ANÁLISIS DE LA INFORMACIÓN PROPORCIONADA .......................................................................... 2
2.1 COMPRESIÓN DE LOS DATOS ............................................................................................................................ 2
2.2 MODELADO DE DATOS..................................................................................................................................... 6
III. CONCLUSIONES Y RECOMENDACIONES. ......................................................................................... 7
3.1 LENGUAJE DE PROGRAMACIÓN. ....................................................................................................................... 7
3.2 PREDICCIONES OBTENIDAS. ............................................................................................................................. 7
3.3 ADECUACIONES DE DATOS PARA ANÁLISIS PREDICTIVO ................................................................................. 7
3.4 MOTOR DE BASE DE DATOS. ............................................................................................................................ 8
3.5 SERVICIOS EN LA NUBE RECOMENDADOS. ....................................................................................................... 8
Herramientas para el Análisis de Big Data
I. Introducción
1.1Antecedentes
La Librería Iztaccihuatl ubicada en la ciudad de Monterey, Nuevo León, México se ve
actualmente en la necesidad de mejorar sus indicadores de desempeño y a la vez
desarrollar una mejor estrategia para la toma de decisiones. La librería cuenta con un
sitio web en donde se generan calificaciones de los libros por parte de los clientes. La
librería ha entregado una serie de documentos los cuales se analizan en el capitulo dos
de este documento.
Página 1 28/11/2020
Herramientas para el Análisis de Big Data
Para el presente análisis, contamos con una serie de archivos con datos en formato texto
delimitado por comas, que representan la operación de la librería. Una descripción de
estos sets de datos se presenta a continuación.
El archivo Books es un catálogo maestro de 10,000 registros que representan los datos
generales de cada libro existente en la librería, además de contener el promedio de
clasificación de cada libro de acuerdo a las votaciones y compras de los clientes.
Página 2 28/11/2020
Herramientas para el Análisis de Big Data
Página 3 28/11/2020
Herramientas para el Análisis de Big Data
El archivo top_books contiene 120 registros con el top 20 de los libros mas vendidos de
acuerdo a una clasificación general. El archivo contiene una serie de atributos de cada
libro desde características de identificación y generales, hasta ventas por volumen,
precios recomendados, etc.
Página 4 28/11/2020
Herramientas para el Análisis de Big Data
Imprint Editorial
El archivo Ratings contiene 981,756 registros con los datos de los libros mas votados por
los clientes dentro del sitio web de la librería.
Página 5 28/11/2020
Herramientas para el Análisis de Big Data
Página 6 28/11/2020
Herramientas para el Análisis de Big Data
1. Basados en los ratings dados a los libros podríamos predecir los libros que mayor
demandan tendrán.
2. Basado también en lo anterior, que género y autores de libros se deberían adquirir
ya que libros del mismo género o autor poseen altos puntajes.
3. Los usuarios que estarían interesados en nuevos libros de acuerdo a sus
recomendaciones.
Página 7 28/11/2020
Herramientas para el Análisis de Big Data
Con el objetivo de que nuestra solución cuente con los beneficios intrínsecos ofrecidos
por las soluciones de la nube como la Flexibilidad, el Trabajo Colaborativo, Disponibilidad,
etc. Se recomiendan la adquisición de los siguientes servicios basados en AWS.
Para el computo se recomienda usar Elastic Compute Cloud EC2 con un servidor Linux
donde se realice el procesamiento en R usando RStudio Server, además de se permita
la publicación de una consulta Web que presente los datos generados. EC2 nos permitirá
tener un servidor virtual donde podremos tener el ambiente de R y el RStudio Server para
ejecutar nuestros análisis almacenándolos en la base relacional ofrecida por RDS.
Página 8 28/11/2020