Beruflich Dokumente
Kultur Dokumente
21378
Deber 1
1. Transformar el archivo binario del día 30 (wc_day30_1.gz) para que toda la información
contenida en ese archivo esté presente en una base de datos. Use el motor de base de
datos de su preferencia
Herramientas Utilizadas
- Lenguaje de programación: Java para extraer los datos q se encuentran
almacenados en el archivo binario. Para extraer tipos de dato uint de 32 bits
utilicé datos tipo long y para los uint de 8 bits utilicé short para poder
almacenar todos los bits sin perder precisión.
- Motor de base de datos: MySql fue la base de datos escogida para almacenar
los datos. Se creó una tabla que contiene ocho campos equivalentes a la
estructura almacenada en el archivo binario que representa un registro.
Forma de Implementación
2. Escriba un programa que accese la base de datos y calcule todos los parámetros
necesarios para graficar un boxplot con el tamaño de los archivos.
De igual manera para tener acceso a la base de datos se utilizó java y conexión jdbc. El
cálculo de los valores para graficar el boxplot se hizo de la siguiente manera.
El campo que tiene los datos de interés es “size”;
El nombre de la tabla es “entire”;
Ahora nuevamente utilizo el programa en java que calcula y grafica los valores necesarios
para realizar el boxplot obteniendo los siguientes resultados
Mínimo: 0
Q1: 668.0
Mediana: 948.0
Q3: 2526.0
Máximo: 2891887
Rango Intercuartil: 1858.0
7. Existen outliers?
Sí existen outliers en esta nueva distribución de los datos y de hecho existen más datos
que entran a ser outliers ya que no se tiene la inconsistencia presente al inicio del análisis
de los datos y la distribución se mueve más hacia donde están la mayoría de los datos. El
número de registros con datos aberrantes es 537621 que equivale más o menos al 15% del
total de los datos.