Data komprimering er en reduksjon i antall biter som trengs for å representere data. Komprimering av data kan spare lagringskapasitet, raskere filoverføring, og redusere kostnadene for lagring av maskinvare og båndbredde på nettverket.

Hvordan komprimering fungerer

Komprimering utføres av et program som bruker en formel eller en algoritme for å finne ut hvordan å krympe størrelsen på dataene., For eksempel, en algoritme kan representere en streng av biter — eller 0s og 1-ere — med en mindre streng av 0s og 1s ved hjelp av en ordbok for konvertering mellom dem, eller formelen kan sette inn en referanse eller peker til en streng av 0s 1s og at programmet har allerede sett.

Tekst komprimering kan være så enkelt som å fjerne alle unødvendige tegn, sette inn en enkelt gjenta tegn for å indikere en streng av gjentatte tegn og erstatter en mindre bit streng for en ofte forekommende litt streng., Data komprimering kan redusere en tekst fil til 50% eller en betydelig høyere andel av sin opprinnelige størrelse.

For dataoverføring, komprimering kan utføres på data, innhold eller på hele transmission unit, inkludert header data. Når informasjon sendes eller mottas via internett, større filer, enten enkeltvis eller sammen med andre som en del av et arkiv filen, kan overføres i en ZIP, GZIP eller andre komprimerte formater.

Hvorfor er data komprimering viktig?

Data komprimering kan dramatisk redusere mengden av lagring av en fil tar opp., For eksempel, i et 2:1 kompresjon, en 20 megabyte (MB) fil som tar opp 10 MB plass. Som et resultat av komprimering, kan administratorer bruke mindre penger og mindre tid på lagring.

Komprimering optimaliserer sikkerhetskopiering, lagring og har nylig vist opp i primære lagring av data reduksjon. Komprimering vil være en viktig metode av data reduksjon data som fortsetter å vokse eksponentielt.

Nesten alle typer filer kan komprimeres, men det er viktig å følge beste praksis når du velger hvilke du vil komprimere., For eksempel, kanskje noen filer som allerede kommet komprimert, så komprimere filene ikke ville ha en betydelig innvirkning.

Data komprimering metoder: lossless (uten datatap) og lossy komprimering

Komprimere data kan være et lossless eller lossy prosessen. Lossless compression gjør det mulig restaurering av en fil til sin opprinnelige tilstand, uten tap av en eneste bit av data, når filen er komprimert. Tapsfri komprimering er typisk tilnærming med kjørbare filer, så vel som tekst og regneark filer, der tap av ord eller tall vil endre informasjonen.,

Lossy komprimering permanent eliminerer biter av data som er overflødig, uviktige eller umerkelig. Lossy komprimering er nyttig med grafikk, lyd, video og bilder, der fjerning av noen data biter har liten eller ingen merkbar effekt på fremstilling av innholdet.

Professor David Brailsford, med Skole
Computer Science ved University of Nottingham,
drøfter komprimering av tekst og bilder.

Grafikk bilde komprimering kan være lossy eller lossless., Grafiske filformater er vanligvis laget for å komprimere informasjon siden-filer har en tendens til å være store. JPEG er et image file format som støtter lossy komprimering. Formater som GIF og PNG bruker komprimering uten tap.

Komprimering vs. data deduplisering

Komprimering er ofte sammenlignet med data deduplisering, men de to teknikkene operere på en annen måte. Deduplisering er en type komprimering som ser for redundante biter av data over et lagring eller filsystemet og deretter erstatter hvert dupliserte blings med en peker til den opprinnelige., Data komprimering algoritmer redusere størrelsen på bit-strenger i en datastrøm som er langt mindre i omfang og generelt husker ikke noe mer enn det siste megabyte eller mindre av data.

Taneja Gruppe analytikeren Mike Matchett diskutert fordelene av komprimering og deduplisering og hvordan de to forskjellige.

Fil-nivå deduplisering eliminerer overflødige filer og erstatter dem med stubber som peker til den opprinnelige filen. Blokk-nivå deduplisering identifiserer dupliserte data på subfile nivå., Systemet lagrer unike forekomster av hver blokk, bruker en hash-algoritme for å behandle dem, og genererer en unik identifikator til å lagre dem i en indeks. Deduplisering vanligvis ser for større biter av duplisere data enn komprimering, og systemene kan deduplicate bruker en fast eller variabel-sized del.

Deduplisering er mest effektive i miljøer som har en høy grad av overflødige data, for eksempel virtuell desktop infrastruktur eller lagring av backup-systemer., Data komprimering har en tendens til å være mer effektive enn deduplisering i å redusere størrelsen på unik informasjon, for eksempel bilder, lyd, videoer, databaser og kjørbare filer. Mange storage systems støtte både komprimering og deduplisering.

Data komprimering og sikkerhetskopiering

Komprimering er ofte brukt for data som ikke er tilgjengelige mye, ettersom prosessen kan være intensiv og tregere systemer. Administratorer, skjønt, kan sømløst integrere komprimering i sitt backup-systemer.

Backup er et redundant type arbeidsoppgaver, som den prosess som fanger opp de samme filene ofte., En organisasjon som utfører full sikkerhetskopiering vil ofte ha omtrent samme data fra backup-til sikkerhetskopi.

Det er store fordeler ved å komprimere data før backup:

  • Data som tar opp mindre plass, som en kompresjon kan nå 100:1, men mellom 2:1 og 5:1 er felles.
  • Hvis komprimering er gjort på en server før du overføring, den tiden du trenger til å overføre data og den totale nettverk båndbredde blir drastisk redusert.
  • På tape, komprimert, mindre fil system kan skanne bilder raskere å nå en bestemt fil, kan redusere gjenopprette ventetid.,
  • Komprimering støttes av programvare for sikkerhetskopiering og tape libraries, så det er et utvalg av data komprimering teknikker.

Fordeler og ulemper med komprimering

De viktigste fordelene med komprimering er en reduksjon på lager hardware, data overføring og kommunikasjon båndbredde — og den resulterende kostnadsbesparelser. En komprimert fil som krever mindre kapasitet enn en ukomprimert fil, og bruk av kompresjon kan føre til en betydelig nedgang i utgifter til disken og/eller solid state-stasjoner., En komprimert fil krever også mindre tid til overføring, og det bruker mindre båndbredde enn et ukomprimert fil.

Den største ulempen av data komprimering er påvirkning av ytelsen som følge av bruk av CPU og minne ressurser for å komprimere data og utføre dekompresjon. Mange leverandører har utviklet sine systemer for å prøve å minimere virkningen av prosessor-intensiv beregninger forbundet med komprimering. Hvis komprimering går inline, før data er skrevet til disk, kan systemet avlasting komprimering for å bevare systemet ressurser., For eksempel, IBM bruker en egen maskinvare akselerasjon kort til å håndtere komprimering med noen av sin enterprise storage systems.

Hvis data er komprimert etter at den er skrevet til disk, eller post-prosessen, komprimering kan kjøre i bakgrunnen for å redusere påvirkning av ytelsen. Selv om post-prosessen komprimering kan redusere responstiden for hver input/output (I/O), er det fortsatt opptar minne og prosessor sykluser og kan påvirke den samlede antall I/Os-et lagringssystem kan håndtere., Også, fordi data utgangspunktet må være skrevet til disk eller flash-stasjoner i et ukomprimert form, fysisk lagring besparelsene er ikke så stor som de er med innebygd komprimering.

Data komprimering teknikker: File system komprimering

File system kompresjon tar en ganske grei måte å redusere lagring fotavtrykk av data ved transparent komprimering av hver fil som det er skrevet.

Mange av de populære Linux filsystemer, inkludert Reiser4, ZFS og btrfs — og Microsoft NTFS ha eit alternativ., Serveren komprimerer biter av data i en fil og deretter skriver de mindre fragmenter til lagring.

Lese-back innebærer en relativt liten ventetid for å utvide hvert fragment, mens skriftlig legger betydelig belastning på serveren, slik komprimering er vanligvis ikke anbefalt for data som er flyktige. File system komprimering kan svekke ytelse, så det skal være utplassert selektivt på filer som ikke har blitt brukt ofte.,

Historisk, med den dyre harddisker av tidlige datamaskiner, data komprimering programvare, for eksempel DiskDoubler og SuperStor Pro, var populære og bidro til å etablere mainstream file system komprimering.

Lagring administratorer kan også bruke teknikken med å bruke kompresjon og deduplisering for bedre data reduksjon.

Teknologier og produkter som bruker data komprimering

Komprimering er bygget inn i et bredt spekter av teknologier, inkludert lagring systemer, databaser, operativsystemer og programvare som brukes av bedrifter, organisasjoner og virksomheter., Komprimering av data er også vanlig i forbruker-enheter, som bærbare datamaskiner, Pc-er og mobiltelefoner.

Mange systemer og enheter utføre komprimering transparent, men noen gir brukerne muligheten til å slå komprimering på eller av. Det kan utføres mer enn en gang på samme fil eller en del av data, men senere kompresjoner resultere i små eller ingen ekstra kompresjon og kan til og med øke størrelsen på filen til en viss grad, avhengig av data komprimering algoritmer.

WinZip er en populær Windows-program som komprimerer filer når det pakker dem i et arkiv., Arkiv filformater som støtter komprimering inkluderer ZIP og RAR. BZIP2 og GZIP formater se utbredt bruk for komprimering av individuelle filer.

Andre leverandører som tilbyr komprimering inkluderer Dell EMC med sin XtremIO flash-matrise, Kaminario med sin K2 flash-matrise og RainStor med sine data komprimering programvare.

Data diff

Data diff er et generelt begrep for å kunne sammenligne innholdet i to data objekter., I forbindelse med komprimering, det innebærer gjentatte ganger søker gjennom mål-filen for å finne lignende blokker og erstatte dem med en referanse til et bibliotek objekt. Denne prosessen gjentas inntil det finner ingen ekstra dupliserte objekter. Data diff kan resultere i mange komprimerte filer med bare ett element i biblioteket som representerer hver kopierte objektet.

I virtuelle skrivebord, denne teknikken kan har en kompresjon av så mye som 100:1., Prosessen er ofte mer i tråd med deduplisering, som ser for identiske filer eller objekter, snarere enn innholdet av hvert objekt.

Data diff er noen ganger referert til som deduplisering.