la compresión de datos es una reducción en el número de bits necesarios para representar datos. La compresión de datos puede ahorrar capacidad de almacenamiento, acelerar la transferencia de archivos y reducir los costos de hardware de almacenamiento y ancho de banda de red.

cómo funciona la compresión

la compresión la realiza un programa que utiliza una fórmula o algoritmo para determinar cómo reducir el tamaño de los datos., Por ejemplo, un algoritmo puede representar una cadena de bits 0 o 0s y 1s with con una cadena más pequeña de 0s y 1s mediante el uso de un diccionario para la conversión entre ellos, o la fórmula puede insertar una referencia o puntero a una cadena de 0s y 1s que el programa ya ha visto.

la compresión de texto puede ser tan simple como eliminar todos los caracteres innecesarios, insertar un solo carácter de repetición para indicar una cadena de caracteres repetidos y sustituir una cadena de bits más pequeña por una cadena de bits que ocurre con frecuencia., La compresión de datos puede reducir un archivo de texto al 50% o un porcentaje significativamente mayor de su tamaño original.

para la transmisión de datos, la compresión se puede realizar en el contenido de datos o en toda la unidad de transmisión, incluidos los datos de encabezado. Cuando la información se envía o recibe a través de internet, los archivos más grandes, ya sea individualmente o con otros como parte de un archivo de archivo, pueden transmitirse en un ZIP, GZIP u otro formato comprimido.

¿por qué es importante la compresión de datos?

la compresión de datos puede disminuir drásticamente la cantidad de almacenamiento que ocupa un archivo., Por ejemplo, en una relación de compresión 2:1, un archivo de 20 megabytes (MB) ocupa 10 MB de espacio. Como resultado de la compresión, los administradores gastan menos dinero y menos tiempo en almacenamiento.

la compresión optimiza el rendimiento del almacenamiento de copia de seguridad y ha aparecido recientemente en la reducción de datos de almacenamiento primario. La compresión será un método importante de reducción de datos, ya que los datos continúan creciendo exponencialmente.

prácticamente cualquier tipo de archivo se puede comprimir, pero es importante seguir las mejores prácticas al elegir cuáles comprimir., Por ejemplo, es posible que algunos archivos ya estén comprimidos, por lo que comprimir esos archivos no tendría un impacto significativo.

métodos de compresión de datos: compresión sin pérdidas y con pérdidas

la compresión de datos puede ser un proceso sin pérdidas o con pérdidas. La compresión sin pérdida permite la restauración de un archivo a su estado original, sin la pérdida de un solo bit de datos, cuando el archivo está descomprimido. La compresión sin pérdida es el enfoque típico con ejecutables, así como archivos de texto y hojas de cálculo, donde la pérdida de palabras o números cambiaría la información.,

la compresión con pérdida elimina permanentemente los bits de datos que son redundantes, sin importancia o imperceptibles. La compresión con pérdida es útil con gráficos, audio, video e imágenes, donde la eliminación de algunos bits de datos tiene poco o ningún efecto discernible en la representación del contenido.

El Profesor David Brailsford, de la Escuela de Informática de la Universidad de Nottingham, habla sobre la compresión de texto e imágenes.

la compresión de imágenes gráficas puede ser con o sin pérdidas., Los formatos de archivo de imagen gráfica generalmente están diseñados para comprimir información, ya que los archivos tienden a ser grandes. JPEG es un formato de archivo de imagen que admite la compresión de imágenes con pérdida. Los formatos como GIF y PNG usan compresión sin pérdida.

compresión vs. deduplicación de datos

la compresión a menudo se compara con la deduplicación de datos, pero las dos técnicas operan de manera diferente. La deduplicación es un tipo de compresión que busca fragmentos redundantes de datos en un sistema de almacenamiento o archivo y luego reemplaza cada fragmento duplicado con un puntero al original., Los Algoritmos de compresión de datos reducen el tamaño de las cadenas de bits en un flujo de datos que es mucho más pequeño en alcance y generalmente no recuerda más que el último megabyte o menos de datos.

El analista de Taneja Group Mike Matchett discutió los beneficios de la compresión y la deduplicación y cómo ambos difieren.

la deduplicación a nivel de archivo elimina los archivos redundantes y los reemplaza con stubs que apuntan al archivo original. La deduplicación a nivel de bloque identifica los datos duplicados en el nivel del subarchivo., El sistema guarda instancias únicas de cada bloque, utiliza un algoritmo hash para procesarlas y genera un identificador único para almacenarlas en un índice. La deduplicación normalmente busca trozos más grandes de datos duplicados que la compresión, y los sistemas pueden deduplicar usando un trozo fijo o de tamaño variable.

la deduplicación es más efectiva en entornos que tienen un alto grado de datos redundantes, como la infraestructura de escritorio virtual o los sistemas de copia de seguridad de almacenamiento., La compresión de datos tiende a ser más efectiva que la deduplicación para reducir el tamaño de información única, como imágenes, audio, videos, bases de datos y archivos ejecutables. Muchos sistemas de almacenamiento soportan compresión y deduplicación.

compresión y copia de seguridad de datos

la compresión se utiliza a menudo para datos a los que no se accede mucho, ya que el proceso puede ser intensivo y ralentizar los sistemas. Sin embargo, los administradores pueden integrar sin problemas la compresión en sus sistemas de copia de seguridad.

la copia de seguridad es un tipo de carga de trabajo redundante, ya que el proceso captura los mismos archivos con frecuencia., Una organización que realiza copias de seguridad completas a menudo tendrá cerca de los mismos datos de copia de seguridad a copia de seguridad.

la compresión de datos antes de la copia de seguridad tiene importantes ventajas:

  • Los datos ocupan menos espacio, ya que una relación de compresión puede alcanzar 100:1, pero es común entre 2:1 y 5:1.
  • si la compresión se realiza en un servidor antes de la transmisión, el tiempo necesario para transmitir los datos y el ancho de banda total de la red se reducen drásticamente.
  • En cinta, la imagen comprimida y más pequeña del sistema de archivos se puede escanear más rápido para llegar a un archivo en particular, lo que reduce la latencia de restauración.,
  • La compresión es compatible con software de copia de seguridad y bibliotecas de cintas, por lo que hay una selección de técnicas de compresión de datos.

Pros y contras de la compresión

Las principales ventajas de la compresión son una reducción en el hardware de almacenamiento, el tiempo de transmisión de datos y el ancho de banda de comunicación — y el ahorro de costos resultante. Un archivo comprimido requiere menos capacidad de almacenamiento que un archivo sin comprimir, y el uso de la compresión puede conducir a una disminución significativa en los gastos de disco y/o unidades de estado sólido., Un archivo comprimido también requiere menos tiempo para la transferencia, y consume menos ancho de banda de red que un archivo sin comprimir.

la principal desventaja de la compresión de datos es el impacto en el rendimiento resultante del uso de recursos de CPU y memoria para comprimir los datos y realizar la descompresión. Muchos Proveedores han diseñado sus sistemas para tratar de minimizar el impacto de los cálculos intensivos en procesador asociados con la compresión. Si la compresión se ejecuta en línea, antes de que los datos se escriban en el disco, el sistema puede descargar la compresión para preservar los recursos del sistema., Por ejemplo, IBM utiliza una tarjeta de aceleración de hardware separada para manejar la compresión con algunos de sus sistemas de almacenamiento empresarial.

si los datos se comprimen después de que se escriben en el disco, o después del proceso, la compresión puede ejecutarse en segundo plano para reducir el impacto en el rendimiento. Aunque la compresión posterior al proceso puede reducir el tiempo de respuesta para cada entrada/salida (e/s), todavía consume ciclos de memoria y procesador y puede afectar el número total de E/S que un sistema de almacenamiento puede manejar., Además, debido a que los datos inicialmente deben escribirse en unidades de disco o flash sin comprimir, los ahorros de almacenamiento físico no son tan grandes como lo son con la compresión en línea.

técnicas de compresión de datos: compresión del sistema de archivos

la compresión del sistema de archivos toma un enfoque bastante sencillo para reducir la huella de almacenamiento de datos comprimiendo de forma transparente cada archivo a medida que se escribe.

muchos de los populares sistemas de archivos Linux-incluyendo Reiser4, ZFS y Btrfs-y Microsoft NTFS tienen una opción de compresión., El servidor comprime trozos de datos en un archivo y luego escribe los fragmentos más pequeños en el almacenamiento.

la lectura implica una latencia relativamente pequeña para expandir cada fragmento, mientras que la escritura agrega una carga sustancial al servidor, por lo que la compresión generalmente no se recomienda para datos volátiles. La compresión del sistema de archivos puede debilitar el rendimiento, por lo que debe implementarse selectivamente en archivos a los que no se accede con frecuencia.,

históricamente, con los costosos discos duros de las primeras computadoras, el software de compresión de datos, como DiskDoubler y SuperStor Pro, fueron populares y ayudaron a establecer la compresión del sistema de archivos.

Los administradores de almacenamiento también pueden aplicar la técnica de compresión y deduplicación para mejorar la reducción de datos.

tecnologías y productos que utilizan compresión de datos

la compresión está integrada en una amplia gama de tecnologías, incluidos sistemas de almacenamiento, bases de datos, sistemas operativos y aplicaciones de software utilizadas por empresas y organizaciones empresariales., La compresión de datos también es común en dispositivos de consumo, como computadoras portátiles, PC y teléfonos móviles.

muchos sistemas y dispositivos realizan la compresión de forma transparente, pero algunos ofrecen a los usuarios la opción de activar o desactivar la compresión. Se puede realizar más de una vez en el mismo archivo o pieza de datos, pero las compresiones posteriores resultan en poca o ninguna compresión adicional e incluso pueden aumentar el tamaño del archivo en un grado leve, dependiendo de los Algoritmos de compresión de datos.

WinZip es un popular programa de Windows que comprime archivos cuando los empaqueta en un archivo., Los formatos de archivo que admiten compresión incluyen ZIP y RAR. Los formatos BZIP2 y GZIP se utilizan ampliamente para comprimir archivos individuales.

otros proveedores que ofrecen compresión incluyen Dell EMC con su matriz all-flash XtremIO, Kaminario con su matriz all-flash K2 y RainStor con su software de compresión de datos.

diferenciación de datos

la diferenciación de datos es un término general para comparar el contenido de dos objetos de datos., En el contexto de la compresión, implica buscar repetidamente a través del archivo de destino para encontrar bloques similares y reemplazarlos con una referencia a un objeto de biblioteca. Este proceso se repite hasta que no encuentre objetos duplicados adicionales. La diferenciación de datos puede dar lugar a muchos archivos comprimidos con un solo elemento en la biblioteca que representa cada objeto duplicado.

en escritorios virtuales, esta técnica puede presentar una relación de compresión de hasta 100:1., El proceso a menudo está más alineado con la deduplicación, que busca archivos u objetos idénticos, en lugar de dentro del contenido de cada objeto.

la diferenciación de datos a veces se conoce como deduplicación.