komprese dat je snížení počtu bitů potřebných k reprezentaci dat. Komprese dat může ušetřit úložnou kapacitu, urychlit přenos souborů a snížit náklady na úložný hardware a šířku pásma sítě.

Jak komprese funguje

Komprese se provádí pomocí programu, který používá vzorec nebo algoritmus k určení, jak zmenšit velikost dat., Například, algoritmus může představovat řetězec bitů-nebo 0s a 1s — s menší řetězec 0 a 1 pomocí slovníku pro konverzi mezi nimi, nebo vzorec může vložit odkaz nebo ukazatel na řetězec, 0s a 1s, že program má již viděli.

komprese textu může být stejně jednoduchá jako odstranění všech nepotřebných znaků, vložení jediného opakovaného znaku pro označení řetězce opakovaných znaků a nahrazení menšího bitového řetězce pro často se vyskytující bitový řetězec., Komprese dat může snížit textový soubor na 50% nebo výrazně vyšší procento jeho původní velikosti.

pro přenos dat lze kompresi provádět na datovém obsahu nebo na celé přenosové jednotce, včetně dat záhlaví. Když je informace odeslána nebo přijata prostřednictvím internetu, větší soubory, a to buď jednotlivě nebo s ostatními jako součást archivního souboru, mohou být přenášeny na ZIP, GZIP nebo jiný komprimovaný formát.

proč je komprese dat důležitá?

komprese dat může dramaticky snížit množství úložiště, které soubor zabírá., Například v kompresním poměru 2:1 zabírá soubor 20 megabajtů (MB) 10 MB místa. V důsledku komprese Administrátoři utrácejí méně peněz a méně času na skladování.

komprese optimalizuje výkon záložního úložiště a nedávno se objevila v redukci dat primárního úložiště. Komprese bude důležitou metodou snižování dat, protože data exponenciálně rostou.

prakticky jakýkoli typ souboru lze komprimovat, ale je důležité dodržovat osvědčené postupy při výběru těch, které chcete komprimovat., Například některé soubory již mohou být komprimovány, takže komprese těchto souborů by neměla významný dopad.

metody komprese dat: bezeztrátová a ztrátová komprese

komprese dat může být bezeztrátový nebo ztrátový proces. Bezeztrátová komprese umožňuje obnovení souboru do původního stavu bez ztráty jediného bitového dat, když je soubor nekomprimován. Bezeztrátová komprese je typický přístup s spustitelné soubory, stejně jako textové a tabulkové soubory, kde ztráta slova nebo čísla by změnit informace.,

ztrátová komprese trvale eliminuje bity dat, které jsou redundantní, nedůležité nebo nepostřehnutelné. Ztrátová komprese je užitečná u grafiky, zvuku, videa a obrázků, kde odstranění některých datových bitů má malý nebo žádný zřetelný vliv na reprezentaci obsahu.

profesor David Brailsford, se školou informatiky na University of Nottingham,
diskutuje o kompresi textu a obrázků.

komprese grafického obrazu může být ztrátová nebo bezeztrátová., Formáty grafických obrazových souborů jsou obvykle navrženy tak, aby komprimovat informace, protože soubory mají tendenci být velké. JPEG je formát obrazového souboru, který podporuje ztrátovou kompresi obrazu. Formáty jako GIF a PNG používají bezeztrátovou kompresi.

Komprese vs. deduplikace dat

Komprese je často přirovnáván k deduplikace dat, ale obě techniky fungují jinak. Deduplikace je typ komprese, který hledá redundantní kusy dat v úložném nebo souborovém systému a poté nahradí každý duplicitní kus ukazatelem na originál., Algoritmy komprese dat snižují velikost bitových řetězců v datovém proudu, který je mnohem menší a obecně si pamatuje ne více než poslední megabajt nebo méně dat.

analytik skupiny Taneja Mike Matchett diskutoval o výhodách komprese a deduplikace a o tom, jak se oba liší.

deduplikace na úrovni souborů eliminuje redundantní soubory a nahrazuje je pahýly směřujícími k původnímu souboru. Deduplikace na blokové úrovni identifikuje duplicitní data na úrovni subfile., Systém ukládá jedinečné instance každého bloku, používá hash algoritmus pro jejich zpracování a generuje jedinečný identifikátor pro jejich uložení do indexu. Deduplikace obvykle hledá větší kusy duplicitních dat než komprese a systémy mohou deduplikovat pomocí pevného nebo variabilního kusu.

deduplikace je nejúčinnější v prostředích, která mají vysoký stupeň redundantních dat, jako je infrastruktura virtuální plochy nebo systémy zálohování úložiště., Komprese dat má tendenci být účinnější než deduplikace při snižování velikosti jedinečných informací, jako jsou obrázky, zvuk, videa, databáze a spustitelné soubory. Mnoho úložných systémů podporuje kompresi i deduplikaci.

komprese Dat a backup

Komprese se často používá pro data, která není přístupná moc, protože proces může být intenzivní a zpomalit systémy. Administrátoři však mohou bezproblémově integrovat kompresi do svých zálohovacích systémů.

Backup je redundantní typ pracovní zátěže, protože proces často zachycuje stejné soubory., Organizace, která provádí plné zálohy, bude mít často téměř stejná data ze zálohy do zálohy.

Tam jsou hlavní výhody na kompresi dat před zálohování:

  • Data zabírá méně místa, jako kompresní poměr může dosáhnout 100:1, ale mezi 2:1 a 5:1 je běžné.
  • pokud se komprese provádí na serveru před přenosem, čas potřebný k přenosu dat a celková šířka pásma sítě se drasticky sníží.
  • na pásku lze komprimovaný, menší obraz souborového systému skenovat rychleji, aby se dosáhlo určitého souboru, což snižuje latenci obnovení.,
  • komprese je podporována záložním softwarem a páskovými knihovnami,takže existuje výběr technik komprese dat.

klady a zápory komprese

hlavními výhodami komprese jsou snížení úložného hardwaru, doba přenosu dat a šířka pásma komunikace-a výsledné úspory nákladů. Komprimovaný soubor vyžaduje menší kapacitu úložiště než nekomprimovaný soubor a použití komprese může vést k výraznému snížení nákladů na disky a/nebo jednotky SSD., Komprimovaný soubor také vyžaduje méně času na přenos a spotřebovává méně šířky pásma sítě než nekomprimovaný soubor.

hlavní nevýhodou komprese dat je dopad výkonu vyplývající z použití CPU a paměťových zdrojů ke kompresi dat a provedení dekomprese. Mnoho dodavatelů navrhlo své systémy, aby se pokusili minimalizovat dopad výpočtů náročných na procesor spojených s kompresí. Pokud komprese běží inline, než budou data zapsána na disk, systém může složit komprese zachovat systémové prostředky., Například IBM používá samostatnou kartu hardwarové akcelerace pro zpracování komprese s některými ze svých podnikových úložných systémů.

pokud jsou data komprimována po zápisu na disk nebo po procesu, komprese může běžet na pozadí, aby se snížil dopad výkonu. Přestože post-procesní komprese může zkrátit dobu odezvy pro každý vstup/výstup (I/O), stále spotřebovává cykly paměti a procesoru a může ovlivnit celkový počet i/Os, které úložný systém zvládne., Také proto, že data musí být zpočátku zapsána na disk nebo flash disky v nekomprimované podobě, úspory fyzického úložiště nejsou tak velké jako u inline komprese.

techniky Datové komprese: komprese systému Souborů

komprese systému Souborů trvá poměrně přímočarý přístup ke snižování ukládání stopy údajů o transparentní kompresi každého souboru, jak je psáno.

mnoho populárních systémů souborů Linux-včetně Reiser4, ZFS a btrfs-a Microsoft NTFS mají možnost komprese., Server komprimuje kusy dat v souboru a poté zapíše menší fragmenty do úložiště.

Read-back zahrnuje relativně malou latenci pro rozšíření každého fragmentu, zatímco psaní přidává značné zatížení serveru, takže komprese se obvykle nedoporučuje pro data, která jsou volatilní. Komprese souborového systému může oslabit výkon, takže by měl být nasazen selektivně na soubory, které nejsou často přístupné.,

Historicky, drahé pevné disky z prvních počítačů, komprese dat software, jako je DiskDoubler a SuperStor Pro, byly populární a pomohl vytvořit proudu komprese systému souborů.

Správci úložiště mohou také použít techniku použití komprese a deduplikace pro lepší snížení dat.

Technologie a produkty, které používají kompresi dat

Komprese je postaven na širokou škálu technologií, včetně systémů pro ukládání dat, databází, operačních systémů a softwarových aplikací používaných podniky a podnikové organizace., Komprese dat je také běžná ve spotřebních zařízeních, jako jsou notebooky, počítače a mobilní telefony.

mnoho systémů a zařízení provádí kompresi transparentně, ale někteří dávají uživatelům možnost zapnout nebo vypnout kompresi. To může být provedeno více než jednou na stejném souboru nebo kus dat, ale následné stlačení výsledek v málo k žádné další kompresi a může dokonce zvýšit velikost souboru na mírný stupeň, v závislosti na datový kompresní algoritmy.

WinZip je populární program Windows, který komprimuje soubory, když je zabalí do archivu., Archivní formáty souborů, které podporují kompresi, zahrnují ZIP a RAR. Formáty BZIP2 a GZIP vidí rozšířené použití pro kompresi jednotlivých souborů.

Další prodejci, které nabízejí kompresi, patří Dell EMC s jeho XtremIO all-flash array, Kaminario s K2 all-flash pole a RainStor s jeho komprese dat software.

Data odlišení

Data odlišení je obecný termín pro porovnání obsahu dvou datových objektů., V souvislosti s kompresí zahrnuje opakované prohledávání cílového souboru, aby našel podobné bloky a nahradil je odkazem na objekt knihovny. Tento proces se opakuje, dokud nenajde žádné další duplicitní objekty. Rozdíl dat může mít za následek mnoho komprimovaných souborů s jediným prvkem v knihovně představujícím každý duplikovaný objekt.

ve virtuálních desktopech může mít tato technika kompresní poměr až 100: 1., Proces je často těsněji sladěn s deduplikací, která hledá identické soubory nebo objekty, spíše než v obsahu každého objektu.

rozdíl dat je někdy označován jako deduplikace.