Materia: Seminario de solución de problemas de estructuras de datos II
Un software de compresión funciona usando ecuaciones matemáticas para Cómo analizar los datos de archivos y buscar patrones de repetición. Entonces, el programa reemplaza estos patrones que funciona la se repiten con pequeñas piezas de datos, o código, que ocupan menos espacio.
compresión Una vez que el software de compresión
ha identificado un patrón de repetición sustituye ese patrón con un código más pequeño que también muestra las ubicaciones del patrón. Los archivos comprimidos generalmente terminan en .zip, .sit y .tar. Estas se llaman extensiones, e indican los diferentes formatos de compresión diferentes tipos de software que se utilizan para comprimir los archivos. Para PC, el .zip es Tipos de el más común. El .sit es más usado con Mac y .tar utilizado con Linux. Cuando veas un archivo con una de estas compresión extensiones, puede ser un solo archivo grande o un conjunto de archivos agrupados. La compresión sin pérdida es una manera de comprimir archivos sin perder ningún dato. Este método amontona los datos Compresión más cerca remplazándolos con un tipo de taquigrafía. Se puede reducir el tamaño de los archivos alrededor de la mitad. El sin pérdidas formato .zip utiliza compresión sin pérdida. Con esta forma, el archivo descomprimido proporciona un duplicado exacto del archivo comprimido, con la misma calidad. Sin embargo, no se puede comprimir archivos a un tamaño muy pequeño, ya que hace menos útil a los archivos muy grandes. Para hacer los archivos hasta un 80% más pequeños, se utiliza la compresión con pérdida. Un software de compresión con pérdida elimina Compresión algunos datos redundantes de un archivo. Debido a que se eliminan datos, la calidad del archivo con pérdida descomprimido es menor que el original. Para utilizar un archivo comprimido, primero Descompresión deberás descomprimirlo. El software utilizado para descomprimir depende de cómo el archivo fue comprimido en primer lugar. La técnica más popular para la eliminación de la redundancias en la codificación es la de Huffman. Cuando se codifica individualmente los símbolos de una fuente de Algoritmo información usando esta técnica la longitud promedio de los símbolos de Huffman necesarios para representar al fuente será menor. Algoritmo • Contar cuantas veces aparece cada carácter en el fichero a comprimir. Y crear una lista enlazada con la información de caracteres y frecuencias. • Ordenar la lista de menor a mayor en función de la frecuencia. • Convertir cada elemento de la lista en un árbol. • Fusionar todos estos árboles en uno único, para hacerlo se sigue el siguiente proceso, mientras la lista de árboles contenga más de un elemento: • Con los dos primeros árboles formar un nuevo árbol, cada uno de los árboles originales en una rama. • Sumar las frecuencias de cada rama en el nuevo elemento árbol. • Insertar el nuevo árbol en el lugar adecuado de la lista según la suma de frecuencias obtenida. • Para asignar el nuevo código binario de cada carácter sólo hay que seguir el camino adecuado a través del árbol. Si se toma una rama cero, se añade un cero al código, si se toma una rama uno, se añade un uno. • Se recodifica el fichero según los nuevos códigos.