az adattömörítés az adatok megjelenítéséhez szükséges bitek számának csökkenése. Az adatok tömörítése megtakaríthatja a tárolókapacitást, felgyorsíthatja a fájlátvitelt, és csökkentheti a tárolási hardverek és a hálózati sávszélesség költségeit.

hogyan működik a tömörítés

a tömörítést olyan program hajtja végre, amely képletet vagy algoritmust használ az adatok méretének csökkentésére., Például, egy algoritmust is képviselhet, egy sor bit … vagy 0-kat, s 1s … egy kisebb string a 0-kat, s 1s segítségével egy szótár, a konverziós közöttük, vagy a képlet beszúrása vagy hivatkozás, függvény egy karakterlánc, a 0-kat, s 1s, hogy a program már láttam.

A szöveges tömörítés ugyanolyan egyszerű lehet, mint az összes szükségtelen karakter eltávolítása, egyetlen ismétlődő karakter beillesztése az ismétlődő karakterek karakterláncának jelzéséhez, valamint egy kisebb bit karakterlánc helyettesítése a gyakran előforduló bit karakterlánchoz., Az adattömörítés csökkentheti a szöveges fájlt 50% – ra vagy az eredeti méretének lényegesen nagyobb százalékára.

adatátvitel esetén a tömörítés elvégezhető az adattartalomban vagy a teljes átviteli egységben, beleértve a fejlécadatokat is. Amikor az információkat az Interneten keresztül küldik vagy fogadják, a nagyobb fájlok, akár egyedül, akár másokkal egy archív fájl részeként, ZIP, GZIP vagy más tömörített formátumban továbbíthatók.

miért fontos az adattömörítés?

az adattömörítés drasztikusan csökkentheti a fájl tárolási mennyiségét., Például egy 2:1 tömörítési arány esetén egy 20 megabájt (MB) fájl 10 MB helyet foglal el. A tömörítés eredményeként a rendszergazdák kevesebb pénzt költenek, kevesebb időt töltenek a tárolásra.

a tömörítés optimalizálja a biztonsági mentési tárolási teljesítményt, és a közelmúltban megjelent az elsődleges tárolási adatok csökkentésében. A tömörítés fontos módszer lesz az adatcsökkentésre, mivel az adatok exponenciálisan növekednek.

gyakorlatilag bármilyen típusú fájl tömöríthető, de fontos, hogy kövesse a legjobb gyakorlatokat, amikor kiválasztja, melyiket tömörítse., Például egyes fájlok már tömöríthetők, így a fájlok tömörítése nem lenne jelentős hatással.

adattömörítési módszerek: veszteségmentes és veszteséges tömörítés

az adatok tömörítése veszteségmentes vagy veszteséges folyamat lehet. A veszteségmentes tömörítés lehetővé teszi a fájl eredeti állapotába történő visszaállítását, egyetlen adat elvesztése nélkül, amikor a fájl tömörítetlen. Veszteségmentes tömörítés a tipikus megközelítés végrehajtható, valamint a szöveges, táblázatkezelő fájlokat, ahol a veszteség a szavak vagy számok megváltoztatná az információt.,

veszteséges tömörítés véglegesen kiküszöböli bit adatok, amelyek redundáns, lényegtelen vagy észrevehetetlen. Veszteséges tömörítés hasznos grafika, hang, videó, képek, ahol az eltávolítása néhány adat bit alig vagy egyáltalán nem észrevehető hatással van a ábrázolása a tartalom.

David Brailsford professzor, a Nottinghami Egyetem
Számítástudományi Karának munkatársa,
a szöveg és a képek tömörítését tárgyalja.

a grafikus képtömörítés veszteséges vagy veszteségmentes lehet., A grafikus képfájlformátumokat általában az információk tömörítésére tervezték, mivel a fájlok általában nagyok. A JPEG egy képfájl formátum, amely támogatja a veszteséges kép tömörítését. Az olyan formátumok, mint a GIF vagy a PNG, veszteségmentes tömörítést használnak.

Compression vs. data deduplication

a tömörítést gyakran hasonlítják az adatok deduplikációjához, de a két technika eltérően működik. A Deduplication egy olyan tömörítési típus, amely redundáns adatdarabokat keres egy tároló vagy fájlrendszeren keresztül, majd minden egyes ismétlődő darabot egy mutatóval helyettesíti az eredetire., Az adattömörítési algoritmusok csökkentik a bithúrok méretét egy sokkal kisebb adatfolyamban, és általában nem több, mint az utolsó megabájtnyi vagy annál kevesebb adat.

Taneja csoport elemzője, Mike Matchett a tömörítés és a deduplikáció előnyeiről, valamint arról beszélt, hogy a kettő hogyan különbözik egymástól.

a fájlszintű deduplication kiküszöböli a redundáns fájlokat, és helyettesíti azokat az eredeti fájlra mutató csonkokkal. A blokkszintű deduplication az alfájl szintjén azonosítja a duplikált adatokat., A rendszer minden blokk egyedi példányait megmenti, egy hash algoritmust használ a feldolgozáshoz, valamint egy egyedi azonosítót generál az indexben való tároláshoz. A Deduplication általában nagyobb mennyiségű ismétlődő adatot keres, mint a tömörítés,a rendszerek pedig rögzített vagy változó méretű darabokat használhatnak.

a Deduplication a leghatékonyabb olyan környezetben, ahol nagyfokú redundáns adatok vannak, például virtuális asztali infrastruktúra vagy biztonsági mentési rendszerek., Az adattömörítés általában hatékonyabb, mint a deduplication méretének csökkentésében egyedi információk, mint például a képek, audio, videók, adatbázisok és végrehajtható fájlokat. Számos tárolórendszer támogatja mind a tömörítést, mind a deduplikációt.

Data compression and backup

a tömörítést gyakran használják olyan adatokhoz, amelyekhez nem férnek hozzá sokat, mivel a folyamat intenzív lehet, és lelassíthatja a rendszereket. A rendszergazdák azonban zökkenőmentesen integrálhatják a tömörítést a biztonsági mentési rendszerekbe.

Backup egy redundáns típusú munkaterhelés, mivel a folyamat rögzíti ugyanazokat a fájlokat gyakran., A teljes biztonsági mentést végző szervezet gyakran közel azonos adatokkal rendelkezik a biztonsági mentésről a biztonsági mentésre.

a biztonsági mentés előtt az adatok tömörítésének jelentős előnyei vannak:

  • Az adatok kevesebb helyet foglalnak el, mivel a tömörítési arány elérheti a 100:1 értéket, de 2:1 és 5:1 között gyakori.
  • ha a tömörítés egy szerveren történik az átvitel előtt, az adatok továbbításához szükséges idő és a teljes hálózati sávszélesség drasztikusan csökken.
  • szalagon a tömörített, kisebb fájlrendszer kép gyorsabban beolvasható egy adott fájl eléréséhez, csökkentve a késleltetést.,
  • a tömörítést biztonsági mentési szoftverek és szalagos könyvtárak támogatják, így lehetőség van az adattömörítési technikák kiválasztására.

Pros and cons of compression

a tömörítés fő előnyei a tároló hardverek, az adatátviteli idő és a kommunikációs sávszélesség csökkenése – és az ebből eredő költségmegtakarítás. A tömörített fájl kevesebb tárolókapacitást igényel, mint egy tömörítetlen fájl, a tömörítés használata pedig a lemez-és/vagy szilárdtest-meghajtók költségeinek jelentős csökkenéséhez vezethet., A tömörített fájl kevesebb időt igényel az átvitelhez, és kevesebb hálózati sávszélességet fogyaszt, mint egy tömörítetlen fájl.

az adattömörítés legfőbb hátránya a CPU és a memória erőforrásainak az adatok tömörítésére és a dekompresszió végrehajtására való felhasználásából eredő teljesítményhatás. Sok gyártó úgy tervezte rendszereit, hogy minimalizálja a tömörítéshez kapcsolódó processzor-intenzív számítások hatását. Ha a tömörítés inline fut, mielőtt az adatokat lemezre írnák, a rendszer letöltheti a tömörítést a rendszer erőforrásainak megőrzése érdekében., Például az IBM külön hardveres gyorsítókártyát használ a tömörítés kezelésére néhány vállalati tárolórendszerével.

Ha az adatok tömörítése a lemezre történő írást vagy a feldolgozás utáni folyamatot követően történik, a tömörítés a háttérben futhat a teljesítményhatás csökkentése érdekében. Bár a folyamat utáni tömörítés csökkentheti az egyes bemenetek/kimenetek (I/O) válaszidejét, még mindig fogyaszt memóriát és processzorciklusokat, és befolyásolhatja a tárolórendszer képes kezelni az I/Os teljes számát., Továbbá, mivel az adatokat először tömörítetlen formában kell lemezre vagy flash meghajtókra írni, a fizikai tárolási megtakarítások nem olyan nagyok, mint az inline tömörítéssel.

adattömörítési technikák: fájlrendszer tömörítése

a fájlrendszer tömörítése meglehetősen egyszerű megközelítést alkalmaz az adatok tárolási lábnyomának csökkentésére azáltal, hogy minden fájlt átlátható módon tömörít.

számos népszerű Linux fájlrendszer-köztük a Reiser4, a ZFS és a Btrfs -, valamint a Microsoft NTFS tömörítési opcióval rendelkezik., A szerver tömöríti az adatok egy fájlban, majd írja a kisebb töredékek tárolására.

a visszaolvasás viszonylag kis késleltetéssel jár az egyes töredékek kibontásához, míg az írás jelentős terhelést ad a kiszolgálónak, így a tömörítés általában nem ajánlott az illékony adatokhoz. A fájlrendszer tömörítése gyengítheti a teljesítményt, ezért szelektíven kell telepíteni olyan fájlokra, amelyek nem érhetők el gyakran.,

történelmileg, a drága merevlemezek korai számítógépek, adattömörítő szoftver, mint például a DiskDoubler és SuperStor Pro, népszerűek voltak, és segített létrehozni mainstream fájlrendszer tömörítés.

A tárolási adminisztrátorok alkalmazhatják a tömörítés és a deduplikáció módszerét is a jobb adatcsökkentés érdekében.

az adattömörítést használó technológiák és termékek

a tömörítés számos technológiára épül, beleértve a vállalkozások és a vállalati szervezetek által használt tárolórendszereket, adatbázisokat, operációs rendszereket és szoftveralkalmazásokat., Az adatok tömörítése gyakori a fogyasztói eszközökben is, például laptopokban, PC-kben és mobiltelefonokban.

sok rendszer és eszköz átlátható módon végzi a tömörítést, de vannak, akik lehetőséget adnak a felhasználóknak a tömörítés be-vagy kikapcsolására. Többször is elvégezhető ugyanazon a fájlon vagy adatdarabon, de a későbbi kompressziók alig vagy egyáltalán nem eredményeznek további tömörítést, sőt az adattömörítési algoritmusoktól függően enyhén növelhetik a fájl méretét.

a WinZip egy népszerű Windows program, amely tömöríti a fájlokat, amikor archívumba csomagolja őket., A tömörítést támogató archív fájlformátumok közé tartozik a ZIP és a rar. A BZIP2 és GZIP formátumok széles körben használják az egyes fájlok tömörítésére.

más tömörítést kínáló gyártók közé tartozik a Dell EMC az XtremIO all-flash tömbjével, a Kaminario a K2 all-flash tömbjével és a RainStor az adattömörítési szoftverével.

Data differencing

Data differencing egy általános kifejezés a két adatobjektum tartalmának összehasonlítására., A tömörítéssel összefüggésben magában foglalja a célfájl ismételt keresését, hogy hasonló blokkokat találjon, majd helyettesítse őket egy könyvtári objektumra való hivatkozással. Ez a folyamat addig ismétlődik, amíg nem talál további ismétlődő objektumokat. Az adatok eltérése sok tömörített fájlt eredményezhet, amelyek csak egy elemet tartalmaznak a könyvtárban, amely minden duplikált objektumot ábrázol.

virtuális asztali számítógépeken ez a technika akár 100:1 tömörítési arányt is tartalmazhat., A folyamat gyakran jobban igazodik a deduplication-hez, amely azonos fájlokat vagy objektumokat keres, nem pedig az egyes objektumok tartalmán belül.

az adatok eltérését néha deduplikációnak nevezik.