datacompressie is een vermindering van het aantal bits dat nodig is om gegevens weer te geven. Het comprimeren van gegevens kan opslagcapaciteit besparen, bestandsoverdracht versnellen en kosten voor opslaghardware en netwerkbandbreedte verlagen.
hoe compressie werkt
compressie wordt uitgevoerd door een programma dat een formule of algoritme gebruikt om te bepalen hoe de grootte van de gegevens moet worden verkleind., Bijvoorbeeld, een algoritme kan een string van bits vertegenwoordigen — of 0s en 1s — met een kleinere string van 0s en 1s door gebruik te maken van een woordenboek voor de conversie tussen hen, of de formule kan een verwijzing of pointer invoegen naar een string van 0s en 1s die het programma al heeft gezien.
Tekstcompressie kan zo eenvoudig zijn als het verwijderen van alle onnodige tekens, het invoegen van een enkel herhaald teken om een reeks herhaalde tekens aan te geven en het vervangen van een kleinere bit string voor een vaak voorkomende bit string., Datacompressie kan een tekstbestand reduceren tot 50% of een aanzienlijk hoger percentage van de oorspronkelijke grootte.
voor gegevensoverdracht kan compressie worden uitgevoerd op de gegevensinhoud of op de gehele transmissieeenheid, inclusief headergegevens. Wanneer informatie via internet wordt verzonden of ontvangen, kunnen grotere bestanden, afzonderlijk of samen met anderen als onderdeel van een archiefbestand, worden verzonden in een ZIP -, GZIP-of ander gecomprimeerd formaat.
Waarom is datacompressie belangrijk?
datacompressie kan de hoeveelheid opslag die een bestand in beslag neemt drastisch verminderen., Bijvoorbeeld, in een 2:1 compressieverhouding, een 20 megabyte (MB) bestand neemt 10 MB ruimte. Als gevolg van compressie besteden beheerders minder geld en minder tijd aan opslag.
compressie optimaliseert de prestaties van back-upopslag en is onlangs verschenen in de reductie van primaire opslaggegevens. Compressie zal een belangrijke methode van gegevensreductie zijn aangezien gegevens exponentieel blijven groeien.
vrijwel elk bestandstype kan worden gecomprimeerd, maar het is belangrijk om de beste praktijken te volgen bij het kiezen van welke te comprimeren., Sommige bestanden kunnen bijvoorbeeld al gecomprimeerd zijn, dus het comprimeren van die bestanden zou geen significante impact hebben.
datacompressiemethoden: verliesloos en verliesloos comprimeren
het comprimeren van gegevens kan een verliesloos of verliesloos proces zijn. Lossless compressie maakt het herstel van een bestand naar de oorspronkelijke staat, zonder het verlies van een enkel bit van gegevens, wanneer het bestand is ongecomprimeerd. Lossless compressie is de typische aanpak met uitvoerbare bestanden, evenals tekst-en spreadsheetbestanden, waar het verlies van woorden of getallen de informatie zou veranderen.,
Lossy compressie elimineert permanent bits data die redundant, onbelangrijk of onmerkbaar zijn. Lossy compressie is handig bij afbeeldingen, audio, video en afbeeldingen, waarbij het verwijderen van sommige gegevensbits weinig of geen waarneembaar effect heeft op de weergave van de inhoud.Professor David Brailsford, verbonden aan de School Of Computer Science aan de Universiteit van Nottingham, bespreekt de compressie van tekst en afbeeldingen.
grafische beeldcompressie kan verliesloos of verliesloos zijn., Grafische beeld bestandsformaten zijn meestal ontworpen om informatie te comprimeren, omdat de bestanden de neiging om groot te zijn. JPEG is een beeldbestandsformaat dat beeldcompressie met verlies ondersteunt. Formaten zoals GIF en PNG gebruiken verliesloze compressie.
compressie vs. data deduplicatie
compressie wordt vaak vergeleken met data deduplicatie, maar de twee technieken werken anders. Deduplicatie is een type compressie dat zoekt naar redundante stukken gegevens over een opslag-of bestandssysteem en dan vervangt elk duplicaat stuk met een pointer naar het origineel., Datacompressiealgoritmen verminderen de grootte van de bit strings in een datastroom die veel kleiner is in omvang en over het algemeen niet meer onthoudt dan de laatste megabyte of minder van gegevens.
Taneja Group analist Mike Matchett besprak de voordelen van compressie en deduplicatie en hoe deze twee verschillen.
deduplicatie op bestandsniveau elimineert overbodige bestanden en vervangt ze door stubs die naar het oorspronkelijke bestand verwijzen. Deduplicatie op blokniveau identificeert dubbele gegevens op subbestandsniveau., Het systeem slaat unieke exemplaren van elk blok op, gebruikt een hash-algoritme om ze te verwerken en genereert een unieke identifier om ze op te slaan in een index. Deduplicatie zoekt meestal naar grotere stukken van dubbele gegevens dan compressie, en systemen kunnen dedupliceren met behulp van een vaste of variabele grootte chunk.
deduplicatie is het meest effectief in omgevingen met een hoge mate van redundante gegevens, zoals virtuele desktop infrastructuur of opslag back-upsystemen., Datacompressie heeft de neiging effectiever te zijn dan deduplicatie in het verminderen van de grootte van unieke informatie, zoals afbeeldingen, audio, video ‘ s, databases en uitvoerbare bestanden. Veel opslagsystemen ondersteunen zowel compressie als deduplicatie.
datacompressie en back-up
compressie wordt vaak gebruikt voor gegevens die niet veel toegankelijk zijn, omdat het proces intensief kan zijn en systemen kan vertragen. Beheerders kunnen echter naadloos compressie integreren in hun back-upsystemen.
back-up is een redundant type werklast, omdat het proces dezelfde bestanden vaak vangt., Een organisatie die volledige back-ups uitvoert, heeft vaak bijna dezelfde gegevens van back-up naar back-up.
Er zijn grote voordelen aan het comprimeren van gegevens voorafgaand aan de back-up:
- gegevens nemen minder ruimte in, omdat een compressieverhouding 100:1 kan bereiken, maar tussen 2:1 en 5:1 is gebruikelijk.
- als compressie wordt uitgevoerd in een server voorafgaand aan de overdracht, wordt de tijd die nodig is om de gegevens te verzenden en de totale netwerkbandbreedte drastisch verminderd.
- op tape kan de gecomprimeerde, kleinere afbeelding van het bestandssysteem sneller worden gescand om een bepaald bestand te bereiken, waardoor de restore latency wordt verminderd.,
- compressie wordt ondersteund door back-upsoftware en tapebibliotheken, dus er is een keuze uit datacompressietechnieken.
voors en tegens van compressie
de belangrijkste voordelen van compressie zijn een vermindering van opslaghardware, datatransmissietijd en communicatiebandbreedte — en de daaruit voortvloeiende kostenbesparingen. Een gecomprimeerd bestand vereist minder opslagcapaciteit dan een niet-gecomprimeerd bestand, en het gebruik van compressie kan leiden tot een aanzienlijke daling van de kosten voor schijf en/of solid-state drives., Een gecomprimeerd bestand vereist ook minder tijd voor overdracht, en het verbruikt minder netwerkbandbreedte dan een niet-gecomprimeerd bestand.
het grootste nadeel van datacompressie is het effect op de prestaties als gevolg van het gebruik van CPU-en geheugenbronnen om de gegevens te comprimeren en decompressie uit te voeren. Veel leveranciers hebben hun systemen ontworpen om te proberen om de impact van de processor-intensieve berekeningen geassocieerd met compressie te minimaliseren. Als de compressie inline loopt, voordat de gegevens naar de schijf worden geschreven, kan het systeem compressie offloaden om systeembronnen te behouden., IBM gebruikt bijvoorbeeld een aparte hardwareversnellingskaart om compressie te verwerken met een aantal van zijn enterprise storage systemen.
Als gegevens worden gecomprimeerd nadat ze naar de schijf zijn geschreven of na het proces, kan de compressie op de achtergrond worden uitgevoerd om het effect op de prestaties te verminderen. Hoewel post-procescompressie de responstijd voor elke input/output (I/O) kan verminderen, verbruikt het nog steeds geheugen en processorcycli en kan het totale aantal I/O ‘ s dat een opslagsysteem aankan, beïnvloeden., Ook, omdat gegevens in eerste instantie in een ongecomprimeerde vorm naar schijf of flash drives moeten worden geschreven, zijn de fysieke opslagbesparingen niet zo groot als ze zijn met inline compressie.
datacompressietechnieken: bestandssysteemcompressie
Bestandssysteemcompressie gebruikt een vrij eenvoudige aanpak om de opslagvoetafdruk van gegevens te verkleinen door elk bestand transparant te comprimeren zoals het geschreven is.
veel van de populaire Linux bestandssystemen — waaronder Reiser4, ZFS en btrfs — en Microsoft NTFS hebben een compressie optie., De server comprimeert stukjes data in een bestand en schrijft dan de kleinere fragmenten naar de opslag.
Read-back heeft een relatief kleine latentie om elk fragment uit te breiden, terwijl schrijven een aanzienlijke belasting toevoegt aan de server, dus compressie wordt meestal niet aanbevolen voor gegevens die vluchtig zijn. Bestandssysteem compressie kan de prestaties verzwakken, dus het moet selectief worden ingezet op bestanden die niet vaak worden geopend.,
historisch gezien, met de dure harde schijven van vroege computers, was datacompressiesoftware, zoals DiskDoubler en SuperStor Pro, populair en hielp bij het opzetten van mainstream bestandssysteemcompressie.
opslagbeheerders kunnen ook de techniek toepassen om compressie en deduplicatie te gebruiken voor verbeterde gegevensreductie.
technologieën en producten die gebruikmaken van datacompressie
compressie is ingebouwd in een breed scala van technologieën, waaronder opslagsystemen, databases, besturingssystemen en softwaretoepassingen die door bedrijven en bedrijfsorganisaties worden gebruikt., Het comprimeren van gegevens is ook gebruikelijk in consumentenapparaten, zoals laptops, pc ‘ s en mobiele telefoons.
veel systemen en apparaten voeren compressie transparant uit, maar sommige geven gebruikers de mogelijkheid om compressie aan of uit te zetten. Het kan meer dan eens worden uitgevoerd op hetzelfde bestand of een stuk van de gegevens, maar daaropvolgende compressies resulteren in weinig tot geen extra compressie en kan zelfs de grootte van het bestand te verhogen tot een lichte mate, afhankelijk van de data compressie algoritmen.
WinZip is een populair Windows-programma dat bestanden comprimeert wanneer het ze in een archief verpakt., Archiefbestandsindelingen die compressie ondersteunen omvatten ZIP en RAR. De bzip2 en GZIP formaten zien wijdverbreid gebruik voor het comprimeren van individuele bestanden.
andere leveranciers die compressie aanbieden zijn Dell EMC met zijn XtremIO all-flash array, Kaminario met zijn K2 all-flash array en RainStor met zijn data compressie software.
data differencing
Data differencing is een algemene term voor het vergelijken van de inhoud van twee gegevensobjecten., In de context van compressie gaat het om het herhaaldelijk doorzoeken van het doelbestand om soortgelijke blokken te vinden en deze te vervangen door een verwijzing naar een bibliotheekobject. Dit proces herhaalt zich totdat het geen extra dubbele objecten vindt. Data differencing kan resulteren in veel gecomprimeerde bestanden met slechts één element in de bibliotheek die elk gedupliceerd object vertegenwoordigen.
in virtuele bureaubladen kan deze techniek een compressieverhouding hebben van maar liefst 100: 1., Het proces is vaak nauwer afgestemd op deduplicatie, die zoekt naar identieke bestanden of objecten, in plaats van binnen de inhoud van elk object.
data differencing wordt soms deduplicatie genoemd.