compressão de dados é uma redução no número de bits necessários para representar dados. Comprimir dados pode economizar capacidade de armazenamento, acelerar a transferência de arquivos, e diminuir os custos de hardware de armazenamento e largura de banda de rede.

How compression works

Compression is performed by a program that uses a formula or algorithm to determine how to shrink the size of the data., Por exemplo, um algoritmo pode representar uma seqüência de bits — ou 0s e 1s, com uma pequena seqüência de 0s e 1s usando um dicionário para a conversão entre eles, ou a fórmula pode inserir uma referência ou ponteiro para uma seqüência de 0s e 1s que o programa já tenha visto.

compressão de texto pode ser tão simples como remover todos os caracteres sem necessidade, inserindo um único carácter de repetição para indicar uma cadeia de caracteres repetidos e substituindo uma cadeia de bits menor por uma cadeia de bits que ocorre frequentemente., A compressão de dados pode reduzir um arquivo de texto para 50% ou uma percentagem significativamente maior do seu tamanho original.

para a transmissão de dados, a compressão pode ser realizada no conteúdo de dados ou em toda a unidade de transmissão, incluindo dados de cabeçalho. Quando a informação é enviada ou recebida através da internet, arquivos maiores, individualmente ou com outros como parte de um arquivo, podem ser transmitidos em um ZIP, GZIP ou outro formato comprimido.por que a compressão de dados é importante?

a compressão de dados pode diminuir drasticamente a quantidade de armazenamento que um arquivo ocupa., Por exemplo, em uma taxa de compressão de 2:1, um arquivo de 20 megabyte (MB) ocupa 10 MB de espaço. Como resultado da compressão, os administradores gastam menos dinheiro e menos tempo em armazenamento.

compressão otimiza o desempenho de armazenamento de backup e recentemente apareceu na redução de dados de armazenamento primário. A compressão será um método importante de redução de dados à medida que os dados continuam a crescer exponencialmente.

virtualmente qualquer tipo de arquivo pode ser comprimido, mas é importante seguir as melhores práticas ao escolher quais comprimir., Por exemplo, alguns arquivos podem já vir comprimidos, então comprimir esses arquivos não teria um impacto significativo.

métodos de Compressão De Dados: compressão sem perdas e sem perdas

comprimir dados pode ser um processo sem perdas ou perdas. A compressão sem perdas permite a restauração de um arquivo ao seu estado original, sem a perda de um único bit de dados, quando o arquivo é descompactado. Compressão sem perdas é a abordagem típica com executáveis, bem como arquivos de texto e planilha, onde a perda de palavras ou números mudaria a informação.,a compressão com perdas elimina permanentemente bits de dados redundantes, sem importância ou imperceptíveis. A compressão com perdas é útil com gráficos, áudio, vídeo e imagens, onde a remoção de alguns bits de dados tem pouco ou nenhum efeito discernível na representação do conteúdo.

Professor David Brailsford, with the School of Computer Science at the University of Nottingham,
discusses compression of text and pictures.

a compressão da imagem gráfica pode ser lossy ou lossless., Formatos de arquivos de imagem gráfica são tipicamente projetados para comprimir informações, uma vez que os arquivos tendem a ser grandes. JPEG é um formato de arquivo de imagem que suporta compressão de imagem com perdas. Formatos como GIF e PNG usam compressão sem perdas.

compressão vs. deduplicação de dados

compressão é muitas vezes comparada com a deduplicação de dados, mas as duas técnicas operam de forma diferente. Deduplication é um tipo de compressão que procura pedaços redundantes de dados através de um sistema de armazenamento ou arquivo e, em seguida, substitui cada bloco duplicado com um ponteiro para o original., Algoritmos de compressão de dados reduzem o tamanho das cadeias de bits em um fluxo de dados que é muito menor em escopo e geralmente lembra não mais do que o último megabyte ou menos de dados.o analista do Grupo Taneja Mike Matchett discutiu os benefícios da compressão e da deduplicação e como as duas diferem.

a deduplicação ao nível do ficheiro elimina ficheiros redundantes e substitui-os por pubs que apontam para o ficheiro original. A deduplicação em bloco identifica dados duplicados ao nível do sub-ficheiro., O sistema salva instâncias únicas de cada bloco, usa um algoritmo de hash para processá-los e gera um identificador único para armazená-los em um índice. A deduplicação normalmente procura pedaços maiores de dados duplicados do que a compressão, e os sistemas podem desduplicar usando um bloco de tamanho fixo ou variável.

a deduplicação é mais eficaz em ambientes que têm um elevado grau de dados redundantes, tais como infra-estrutura de desktop virtual ou sistemas de backup de armazenamento., A compressão de dados tende a ser mais eficaz do que a deduplicação na redução do tamanho de informações únicas, tais como imagens, áudio, vídeos, bases de dados e arquivos executáveis. Muitos sistemas de armazenamento suportam a compressão e a deduplicação.

compressão de dados e backup

compressão é muitas vezes usado para dados que não é acessado muito, como o processo pode ser intensivo e desacelerar sistemas. Os administradores, no entanto, podem perfeitamente integrar a compressão em seus sistemas de backup.

Backup é um tipo redundante de carga de trabalho, como o processo captura os mesmos arquivos com freqüência., Uma organização que executa backups completos muitas vezes terá perto dos mesmos dados de backup para backup.

Existem grandes benefícios para comprimir dados antes de backup:

  • Os dados ocupam menos espaço, como uma taxa de compressão pode chegar a 100:1, mas entre 2:1 e 5:1 é comum.se a compressão é feita em um servidor antes da transmissão, o tempo necessário para transmitir os dados e a largura de banda total da rede são drasticamente reduzidos.
  • na fita, a imagem comprimida, menor do sistema de arquivos pode ser digitalizada mais rapidamente para chegar a um arquivo particular, reduzindo a latência de restauração.,
  • compressão é suportada por software de backup e bibliotecas de fita, então há uma escolha de técnicas de compressão de dados.

Prós e contras de compressão

As principais vantagens de compressão a uma redução no hardware de armazenamento, tempo de transmissão de dados e largura de banda de comunicação — e a consequente redução de custos. Um arquivo comprimido requer menos capacidade de armazenamento do que um arquivo não comprimido, e o uso de compressão pode levar a uma diminuição significativa nas despesas de unidades de disco e/ou estado sólido., Um arquivo comprimido também requer menos tempo para transferência, e consome menos largura de banda de rede do que um arquivo não comprimido.

A principal desvantagem da compressão de dados é o impacto de desempenho resultante do uso de CPU e recursos de memória para comprimir os dados e realizar descompressão. Muitos fornecedores projetaram seus sistemas para tentar minimizar o impacto dos cálculos intensivos em processadores associados à compressão. Se a compressão correr em linha, antes que os dados sejam escritos em disco, o sistema pode desligar a compressão para preservar os recursos do sistema., Por exemplo, IBM usa um cartão de aceleração de hardware separado para lidar com compressão com alguns de seus sistemas de armazenamento corporativo.

Se os dados são comprimidos depois de ser escrito em disco, ou pós-processo, a compressão pode correr em segundo plano para reduzir o impacto de desempenho. Embora a compressão pós-processo pode reduzir o tempo de resposta para cada entrada/saída (I/O), ele ainda consome ciclos de memória e processador e pode afetar o número total de I/Os que um sistema de armazenamento pode lidar., Além disso, porque os dados inicialmente devem ser escritos em discos ou unidades flash em uma forma não comprimida, a poupança de armazenamento físico não são tão grandes como eles são com a compressão inline.

técnicas de compressão de dados: Compressão Do Sistema de arquivos

compressão do sistema de arquivos tem uma abordagem bastante simples para reduzir a pegada de armazenamento de dados através da compressão transparente de cada arquivo como ele é escrito.

muitos dos populares sistemas de arquivos Linux — incluindo Reiser4, ZFS e btrfs — e Microsoft NTFS têm uma opção de compressão., O servidor comprime pedaços de dados em um arquivo e, em seguida, escreve os fragmentos menores para o armazenamento.

Read-back envolve uma latência relativamente pequena para expandir cada fragmento, enquanto a escrita adiciona carga substancial ao servidor, então a compressão geralmente não é recomendada para dados que são voláteis. A compressão do sistema de arquivos pode enfraquecer o desempenho, então ele deve ser implantado seletivamente em arquivos que não são acessados com freqüência.,

historicamente, com os discos rígidos caros dos primeiros computadores, o software de compressão de dados, como DiskDoubler e SuperStor Pro, eram populares e ajudaram a estabelecer a compressão do sistema de arquivos mainstream.os administradores de Armazenamento podem também aplicar a técnica de compressão e deduplicação para uma melhor redução de dados.

tecnologias e produtos que utilizam compressão de dados

compressão é construída em uma ampla gama de tecnologias, incluindo sistemas de armazenamento, bases de dados, sistemas operacionais e aplicações de software utilizados por empresas e organizações empresariais., Comprimir dados também é comum em dispositivos de consumo, como laptops, PCs e telefones celulares.

muitos sistemas e dispositivos realizam compressão de forma transparente, mas alguns dão aos usuários a opção de ligar ou desligar a compressão. Ele pode ser realizado mais de uma vez no mesmo arquivo ou pedaço de dados, mas compressões subsequentes resultam em pouca ou nenhuma compressão adicional e pode até aumentar o tamanho do arquivo em um grau ligeiro, dependendo dos algoritmos de compressão de dados.

WinZip é um popular programa do Windows que comprime os arquivos quando os embala em um arquivo., Os formatos de arquivo que suportam a compressão incluem ZIP e RAR. Os formatos BZIP2 e GZIP veem uso generalizado para comprimir arquivos individuais.

outros fornecedores que oferecem compressão incluem Dell EMC com seu XtremIO all-flash array, Kaminario com seu K2 all-flash array e RainStor com seu software de compressão de dados.

A diferença de dados

a diferença de dados é um termo geral para comparar o conteúdo de dois objetos de dados., No contexto da compressão, envolve a pesquisa repetitiva através do arquivo alvo para encontrar blocos semelhantes e substituí-los por uma referência a um objeto biblioteca. Este processo se repete até não encontrar nenhum objeto duplicado adicional. A diferença de dados pode resultar em muitos arquivos comprimidos com apenas um elemento na biblioteca representando cada objeto duplicado.

em desktops virtuais, esta técnica pode apresentar uma taxa de compressão de até 100: 1., O processo é muitas vezes mais alinhado com a deduplication, que procura arquivos ou objetos idênticos, em vez de dentro do conteúdo de cada objeto.

a diferença de dados é por vezes referida como deduplicação.