datakomprimering er en reduktion i antallet af bits, der er nødvendige for at repræsentere data. Komprimering af data kan spare lagerkapacitet, fremskynde filoverførsel og reducere omkostningerne til lagerhard .are og netværksbåndbredde.

hvordan komprimering fungerer

komprimering udføres af et program, der bruger en formel eller algoritme til at bestemme, hvordan man krymper størrelsen på dataene., For eksempel kan en algoritme repræsentere en streng af bits-eller 0s og 1s-med en mindre streng af 0s og 1s ved hjælp af en ordbog til konvertering mellem dem, eller formlen kan indsætte en reference eller pointer til en streng af 0s og 1s, at programmet allerede har set.

Tekstkomprimering kan være så simpelt som at fjerne alle unødvendige tegn, indsætte et enkelt gentagelsestegn for at indikere en streng med gentagne tegn og erstatte en mindre bitstreng med en ofte forekommende bitstreng., Datakomprimering kan reducere en tekstfil til 50% eller en markant højere procentdel af dens oprindelige størrelse.

til datatransmission kan komprimering udføres på dataindholdet eller på hele transmissionsenheden, inklusive header data. Når oplysninger sendes eller modtages via internettet, kan større filer, enten enkeltvis eller med andre som en del af en arkivfil, overføres i en archiveip, g .ip eller andet komprimeret format.

Hvorfor er datakomprimering vigtig?

datakomprimering kan dramatisk reducere mængden af lagerplads, en fil optager., For eksempel i en 2:1 kompressionsforhold tager en 20 megabyte (MB) fil 10 MB plads. Som følge af komprimering bruger administratorer mindre penge og mindre tid på opbevaring.

komprimering optimerer backup opbevaring ydeevne og har for nylig vist sig i primær lagring datareduktion. Komprimering vil være en vigtig metode til datareduktion, da data fortsætter med at vokse eksponentielt.

næsten enhver filtype kan komprimeres, men det er vigtigt at følge bedste praksis, når du vælger, hvilke der skal komprimeres., For eksempel kan nogle filer allerede komme komprimeret, så komprimering af disse filer ville ikke have nogen betydelig indflydelse.

datakomprimeringsmetoder: tabsfri Og tabsfri komprimering

komprimering af data kan være en tabsfri eller tabsfri proces. Tabsfri komprimering muliggør genoprettelse af en fil til sin oprindelige tilstand, uden tab af en enkelt bit af data, når filen er ukomprimeret. Tabsfri komprimering er den typiske tilgang med eksekverbare filer såvel som tekst-og regnearkfiler, hvor tabet af ord eller tal ville ændre informationen.,

Lossy kompression eliminerer permanent bits af data, der er overflødige, uvæsentlige eller umærkelige. Lossy komprimering er nyttig med grafik, lyd, video og billeder, hvor fjernelsen af nogle databit har ringe eller ingen mærkbar effekt på repræsentationen af indholdet.

Professor David Brailsford, med skolen for
datalogi ved University of Nottingham,
diskuterer komprimering af tekst og billeder.

grafik billedkomprimering kan være lossy eller tabsfri., Grafiske billedfilformater er typisk designet til at komprimere oplysninger, da filerne har tendens til at være store. JPEG er et billedfilformat, der understøtter tabsgivende billedkomprimering. Formater som GIF og PNG bruger tabsfri komprimering.

komprimering vs. data deduplikering

komprimering sammenlignes ofte med data deduplikering, men de to teknikker fungerer forskelligt. Deduplication er en type komprimering, der ser efter overflødige klumper af data på tværs af et lager eller filsystem og derefter erstatter hver duplikat klump med en markør til originalen., Datakomprimeringsalgoritmer reducerer størrelsen på bitstrengene i en datastrøm, der er langt mindre i omfang og generelt husker ikke mere end den sidste megabyte eller mindre af data.

Taneja Group analytiker Mike Matchett diskuterede fordelene ved kompression og deduplikering og hvordan de to er forskellige.

deduplikering af filniveau eliminerer overflødige filer og erstatter dem med stubber, der peger på den originale fil. Deduplikering på blokniveau identificerer duplikatdata på underfilniveau., Systemet gemmer unikke forekomster af hver blok, bruger en hash-algoritme til at behandle dem og genererer en unik identifikator til at gemme dem i et indeks. Deduplikering ser typisk efter større bidder med duplikatdata end komprimering, og systemer kan deduplikere ved hjælp af en fast eller variabel størrelse.

deduplikering er mest effektiv i miljøer, der har en høj grad af overflødige data, såsom virtuel desktopinfrastruktur eller lagringsbackupsystemer., Datakomprimering har en tendens til at være mere effektiv end deduplikering til at reducere størrelsen på unikke oplysninger, såsom billeder, lyd, videoer, databaser og eksekverbare filer. Mange lagringssystemer understøtter både kompression og deduplikering.

datakomprimering og backup

komprimering bruges ofte til data, der ikke er adgang til meget, da processen kan være intensiv og bremse systemer. Administratorer kan dog problemfrit integrere komprimering i deres backup-systemer.

Backup er en overflødig type arbejdsbyrde, da processen optager de samme filer ofte., En organisation, der udfører fuld backup vil ofte have tæt på de samme data fra backup til backup.

Der er store fordele ved at komprimere data inden backup:

  • Data tager mindre plads, da et kompressionsforhold kan nå 100:1, men mellem 2:1 og 5:1 er almindeligt.
  • hvis komprimering udføres på en server før transmission, reduceres den tid, der er nødvendig for at overføre dataene og den samlede netværksbåndbredde drastisk.
  • på bånd kan det komprimerede, mindre filsystembillede scannes hurtigere for at nå en bestemt fil, hvilket reducerer gendannelsesforsinkelsen.,
  • komprimering understøttes af backup-soft .are og båndbiblioteker, så der er et valg af datakomprimeringsteknikker.

Fordele og ulemper ved komprimering

Den vigtigste fordele af komprimering er en reduktion i storage-hardware, data transmission tid og kommunikation båndbredde — og de deraf følgende besparelser. En komprimeret fil kræver mindre lagerkapacitet end en ukomprimeret fil, og brugen af komprimering kan føre til et markant fald i udgifterne til disk og/eller solid state-drev., En komprimeret fil kræver også mindre tid til overførsel, og den bruger mindre netværksbåndbredde end en ukomprimeret fil.

den største ulempe ved datakomprimering er ydeevnepåvirkningen som følge af brugen af CPU-og hukommelsesressourcer til at komprimere dataene og udføre dekomprimering. Mange leverandører har designet deres systemer til at forsøge at minimere virkningen af de processorintensive beregninger i forbindelse med komprimering. Hvis komprimeringen kører inline, før dataene skrives til disk, kan systemet aflaste komprimering for at bevare systemressourcer., For eksempel bruger IBM et separat hard .areaccelerationskort til at håndtere komprimering med nogle af virksomhedens lagersystemer.

Hvis data komprimeres, efter at de er skrevet til disk eller post-process, kan komprimeringen køre i baggrunden for at reducere ydeevnepåvirkningen. Selvom komprimering efter processen kan reducere responstiden for hver input/output (i/O), bruger den stadig hukommelse og processorcyklusser og kan påvirke det samlede antal i/O ‘ er, som et lagersystem kan håndtere., Fordi data oprindeligt skal skrives til disk-eller flashdrev i en ukomprimeret form, er de fysiske lagringsbesparelser ikke så store, som de er med inline-komprimering.

datakomprimeringsteknikker: filsystemkomprimering

filsystemkomprimering tager en ret ligetil tilgang til at reducere lagringsfodaftrykket for data ved gennemsigtigt at komprimere hver fil, som den er skrevet.

mange af de populære Linu. – filsystemer-herunder Reiser4, andfs og btrfs-og Microsoft NTFS har en komprimeringsindstilling., Serveren komprimerer bidder af data i en fil og skriver derefter de mindre fragmenter til opbevaring.

Read-back involverer en relativt lille latenstid for at udvide hvert fragment, mens skrivning tilføjer betydelig belastning til serveren, så komprimering anbefales normalt ikke til data, der er Flygtige. Filsystemkomprimering kan svække ydeevnen, så den skal implementeres selektivt på filer, der ikke åbnes ofte.,

historisk set var datakomprimeringssoft .are, såsom DiskDoubler og SuperStor Pro, med de dyre harddiske på tidlige computere populære og hjalp med at etablere mainstream filsystemkomprimering.

Lageradministratorer kan også anvende teknikken til at bruge komprimering og deduplikering til forbedret datareduktion.

teknologier og produkter, der bruger datakomprimering

komprimering er indbygget i en lang række teknologier, herunder lagringssystemer, databaser, operativsystemer og soft .areapplikationer, der bruges af virksomheder og virksomhedsorganisationer., Komprimering af data er også almindelig i forbrugerenheder, såsom bærbare computere, Pc ‘ er og mobiltelefoner.mange systemer og enheder udfører komprimering gennemsigtigt, men nogle giver brugerne mulighed for at slå komprimering til eller fra. Det kan udføres mere end Onn gang på den samme fil eller stykke data, men efterfølgende kompressioner resultere i lidt at ingen yderligere komprimering og kan endda øge størrelsen af filen i en lille grad, afhængigt af data komprimering algoritmer.n .ip er et populært programindo .s-program, der komprimerer filer, når det pakker dem i et arkiv., Arkiv filformater, der understøtter komprimering omfatter ZIPIP og RAR. Formaterne B .ip2 og G .ip ser udbredt anvendelse til komprimering af individuelle filer.

Andre leverandører, der tilbyder kompression omfatter Dell, EMC med sin XtremIO alle-flash-array, Kaminario med sin K2 alle-flash-array og RainStor med sine data kompression software.

dataforskel

dataforskel er en generel betegnelse for sammenligning af indholdet af to dataobjekter., I forbindelse med komprimering involverer det gentagne gange at søge gennem målfilen for at finde lignende blokke og erstatte dem med en henvisning til et biblioteksobjekt. Denne proces gentages, indtil den ikke finder yderligere duplikatobjekter. Dataforskel kan resultere i mange komprimerede filer med kun et element i biblioteket, der repræsenterer hvert duplikeret objekt.

i virtuelle desktops kan denne teknik have et kompressionsforhold på så meget som 100:1., Processen er ofte tættere på linje med deduplikering, der ser efter identiske filer eller objekter, snarere end inden for indholdet af hvert objekt.

dataforskel er undertiden benævnt deduplikering.