La compression de données est une réduction du nombre de bits nécessaires pour représenter les données. La compression des données permet d’économiser de la capacité de stockage, d’accélérer le transfert de fichiers et de réduire les coûts liés au matériel de stockage et à la bande passante réseau.

Comment fonctionne la compression

La compression est effectuée par un programme qui utilise une formule ou un algorithme pour déterminer comment réduire la taille des données., Par exemple, un algorithme peut représenter une chaîne de bits-ou 0s et 1s-avec une chaîne plus petite de 0s et 1s en utilisant un dictionnaire pour la conversion entre eux, ou la formule peut insérer une référence ou un pointeur sur une chaîne de 0s et 1s que le programme a déjà vu.

La compression de texte peut être aussi simple que de supprimer tous les caractères inutiles, d’insérer un seul caractère de répétition pour indiquer une chaîne de caractères répétés et de remplacer une chaîne de bits plus petite par une chaîne de bits fréquente., La compression de données peut réduire un fichier texte à 50% ou un pourcentage nettement plus élevé de sa taille d’origine.

Pour la transmission de données, la compression peut être effectuée sur le contenu des données ou sur l’ensemble de l’unité de transmission, y compris les données d’en-tête. Lorsque des informations sont envoyées ou reçues via Internet, des fichiers plus volumineux, individuellement ou avec d’autres dans le cadre d’un fichier d’archive, peuvent être transmis dans un format ZIP, GZIP ou autre format compressé.

Pourquoi la compression de données est-elle importante?

la compression de Données peut considérablement réduire la quantité de stockage d’un fichier prend., Par exemple, dans un taux de compression de 2:1, un fichier de 20 mégaoctets (Mo) occupe 10 Mo d’espace. En raison de la compression, les administrateurs dépensent moins d’argent et moins de temps sur le stockage.

La compression optimise les performances du stockage de sauvegarde et est récemment apparue dans la réduction des données de stockage primaire. La compression sera une méthode importante de réduction des données car les données continuent de croître de manière exponentielle.

Pratiquement n’importe quel type de fichier peut être compressé, mais il est important de suivre les meilleures pratiques lors du choix de ceux à compresser., Par exemple, certains fichiers peuvent déjà être compressés, donc la compression de ces fichiers n’aurait pas d’impact significatif.

Méthodes de compression de données: compression sans perte et avec perte

La compression de données peut être un processus sans perte ou avec perte. La compression sans perte permet de restaurer un fichier dans son état d’origine, sans perte d’un seul bit de données, lorsque le fichier n’est pas compressé. La compression sans perte est l’approche typique avec les exécutables, ainsi que les fichiers texte et tableur, où la perte de mots ou de chiffres modifierait les informations.,

La compression avec perte élimine en permanence les bits de données redondants, sans importance ou imperceptibles. La compression avec perte est utile pour les graphiques, l’audio, la vidéo et les images, où la suppression de certains bits de données a peu ou pas d’effet perceptible sur la représentation du contenu.


Le professeur David Brailsford, de l’École d’informatique de l’Université de Nottingham, discute de la compression de texte et d’images.

La compression d’image graphique peut être sans perte ou avec perte., Les formats de fichiers d’images graphiques sont généralement conçus pour compresser les informations, car les fichiers ont tendance à être volumineux. JPEG est un format de fichier d’image qui prend en charge la compression d’image avec perte. Les formats tels que GIF et PNG utilisent la compression sans perte.

Compression vs déduplication de données

La compression est souvent comparée à la déduplication de données, mais les deux techniques fonctionnent différemment. La déduplication est un type de compression qui recherche des blocs de données redondants dans un système de stockage ou de fichiers, puis remplace chaque bloc en double par un pointeur vers l’original., Les algorithmes de compression de données réduisent la taille des chaînes de bits dans un flux de données dont la portée est beaucoup plus petite et qui ne mémorise généralement pas plus que le dernier mégaoctet ou moins de données.

Mike Matchett, analyste du Groupe Taneja, a discuté des avantages de la compression et de la déduplication et de la différence entre les deux.

La déduplication au niveau du fichier élimine les fichiers redondants et les remplace par des talons pointant vers le fichier d’origine. La déduplication au niveau des blocs identifie les données en double au niveau des sous-fichiers., Le système enregistre les instances uniques de chaque bloc, utilise un algorithme de hachage pour les traiter et génère un identifiant unique pour les stocker dans un index. La déduplication recherche généralement des blocs de données en double plus importants que la compression, et les systèmes peuvent dédupliquer à l’aide d’un bloc de taille fixe ou variable.

La déduplication est plus efficace dans les environnements qui ont un degré élevé de données redondantes, telles que l’infrastructure de bureau virtuel ou les systèmes de sauvegarde de stockage., La compression de données a tendance à être plus efficace que la déduplication pour réduire la taille des informations uniques, telles que les images, l’audio, les vidéos, les bases de données et les fichiers exécutables. De nombreux systèmes de stockage prennent en charge la compression et la déduplication.

Compression et sauvegarde des données

La compression est souvent utilisée pour les données peu accessibles, car le processus peut être intensif et ralentir les systèmes. Cependant, les administrateurs peuvent intégrer la compression de manière transparente dans leurs systèmes de sauvegarde.

La sauvegarde est un type de charge de travail redondant, car le processus capture fréquemment les mêmes fichiers., Une organisation qui effectue des sauvegardes complètes aura souvent près des mêmes données de sauvegarde en sauvegarde.

La compression des données avant la sauvegarde présente des avantages majeurs:

  • Les données prennent moins de place, car un taux de compression peut atteindre 100:1, mais entre 2:1 et 5:1 est courant.
  • Si la compression est effectuée dans un serveur avant la transmission, le temps nécessaire à la transmission des données et la bande passante totale du réseau sont considérablement réduits.
  • Sur bande, l’image du système de fichiers compressée et plus petite peut être numérisée plus rapidement pour atteindre un fichier particulier, réduisant ainsi la latence de restauration.,
  • La compression est prise en charge par des logiciels de sauvegarde et des bibliothèques de bandes, il existe donc un choix de techniques de compression de données.

Avantages et inconvénients de la compression

Les principaux avantages de la compression sont une réduction du matériel de stockage, du temps de transmission des données et de la bande passante de communication — et les économies de coûts qui en résultent. Un fichier compressé nécessite moins de capacité de stockage qu’un fichier non compressé, et l’utilisation de la compression peut entraîner une diminution significative des dépenses pour les disques et/ou les disques ssd., Un fichier compressé nécessite également moins de temps pour le transfert et consomme moins de bande passante réseau qu’un fichier non compressé.

Le principal inconvénient de la compression de données est l’impact sur les performances résultant de l’utilisation de ressources CPU et mémoire pour compresser les données et effectuer une décompression. De nombreux fournisseurs ont conçu leurs systèmes pour essayer de minimiser l’impact des calculs à forte intensité de processeur associés à la compression. Si la compression s’exécute en ligne, avant que les données ne soient écrites sur le disque, le système peut décharger la compression pour préserver les ressources système., Par exemple, IBM utilise une carte d’accélération matérielle distincte pour gérer la compression avec certains de ses systèmes de stockage d’entreprise.

Si les données sont compressées après leur écriture sur le disque ou après leur traitement, la compression peut s’exécuter en arrière-plan pour réduire l’impact sur les performances. Bien que la compression post-processus puisse réduire le temps de réponse pour chaque entrée/sortie (E/S), elle consomme toujours des cycles de mémoire et de processeur et peut affecter le nombre global d’E/S qu’un système de stockage peut gérer., De plus, comme les données doivent initialement être écrites sur un disque ou des lecteurs flash sous une forme non compressée, les économies de stockage physique ne sont pas aussi importantes qu’avec la compression en ligne.

Techniques de compression de données: Compression du système de fichiers

La compression du système de fichiers adopte une approche assez simple pour réduire l’empreinte de stockage des données en compressant de manière transparente chaque fichier tel qu’il est écrit.

De nombreux systèmes de fichiers Linux populaires-y compris Reiser4, ZFS et btrfs-et Microsoft NTFS ont une option de compression., Le serveur compresse des morceaux de données dans un fichier, puis écrit les plus petits fragments dans le stockage.

La lecture implique une latence relativement faible pour étendre chaque fragment, tandis que l’écriture ajoute une charge importante au serveur, de sorte que la compression n’est généralement pas recommandée pour les données volatiles. La compression du système de fichiers peut affaiblir les performances, elle doit donc être déployée de manière sélective sur les fichiers auxquels on n’accède pas fréquemment.,

Historiquement, avec les disques durs coûteux des premiers ordinateurs, les logiciels de compression de données, tels que DiskDoubler et SuperStor Pro, étaient populaires et ont aidé à établir la compression de système de fichiers grand public.

Les administrateurs de stockage peuvent également appliquer la technique de compression et de déduplication pour améliorer la réduction des données.

Technologies et produits utilisant la compression de données

La compression est intégrée à un large éventail de technologies, y compris les systèmes de stockage, les bases de données, les systèmes d’exploitation et les applications logicielles utilisées par les entreprises et les organisations d’entreprise., La compression des données est également courante dans les appareils grand public, tels que les ordinateurs portables, les PC et les téléphones mobiles.

de Nombreux systèmes et dispositifs d’effectuer la compression de manière transparente, mais certains donnent aux utilisateurs la possibilité d’activer ou désactiver la compression. Il peut être effectué plus d’une fois sur le même fichier ou le même morceau de données, mais les compressions ultérieures entraînent peu ou pas de compression supplémentaire et peuvent même augmenter légèrement la taille du fichier, en fonction des algorithmes de compression de données.

WinZip est un programme Windows populaire qui compresse les fichiers lorsqu’il les empaquette dans une archive., Les formats de fichiers d’archive qui prennent en charge la compression incluent ZIP et RAR. Les formats BZIP2 et GZIP sont largement utilisés pour compresser des fichiers individuels.

Parmi les autres fournisseurs qui proposent la compression, citons Dell EMC avec sa matrice tout flash XtremIO, Kaminario avec sa matrice tout flash K2 et RainStor avec son logiciel de compression de données.

les Données de différenciation

les Données de différenciation est un terme général pour comparer le contenu de deux objets de données., Dans le contexte de la compression, il s’agit de rechercher de manière répétitive dans le fichier cible pour trouver des blocs similaires et de les remplacer par une référence à un objet de bibliothèque. Ce processus se répète jusqu’à ce qu’il ne trouve aucun objet en double supplémentaire. La différenciation des données peut entraîner de nombreux fichiers compressés avec un seul élément dans la bibliothèque représentant chaque objet dupliqué.

Dans les bureaux virtuels, cette technique peut présenter un taux de compression allant jusqu’à 100:1., Le processus est souvent plus étroitement aligné avec la déduplication, qui recherche des fichiers ou des objets identiques, plutôt que dans le contenu de chaque objet.

La différenciation des données est parfois appelée déduplication.