tietojen pakkaaminen on tietojen esittämiseen tarvittavien bittien määrän vähentämistä. Tietojen tiivistäminen voi säästää tallennuskapasiteettia, nopeuttaa tiedostojen siirtoa ja vähentää tallennuslaitteiden ja verkon kaistanleveyden kustannuksia.
Miten pakkaus toimii
Pakkaus suoritetaan ohjelma, joka käyttää kaavaa tai algoritmia määrittää, kuinka kutistua koko tiedot., Esimerkiksi, algoritmi voi edustaa merkkijono bittiä-tai 0s ja 1s — pienempi merkkijono 0s ja 1s käyttämällä sanakirja muuntaminen niiden välillä, tai kaavan voi lisätä viittaus tai osoitin merkkijono 0s ja 1s, että ohjelma on jo nähty.
Tekstiä pakkaus voi olla yhtä helppoa kuin poistamalla kaikki tarpeettomat merkit, lisäämällä yhden toista merkki osoittaa merkkijono toistuvat merkit ja korvaamalla pienempi bit string esiintyvä bittinen merkkijono., Tietojen pakkaus voi vähentää tekstitiedosto 50% tai huomattavasti suurempi prosenttiosuus alkuperäisestä koosta.
tietojen siirto, puristus voidaan suorittaa tietojen sisältöä tai koko voimansiirto-yksikkö, mukaan lukien header-tiedot. Kun tiedot lähetetään tai vastaanotetaan Internetin kautta, suuremmat tiedostot, joko yksittäin tai muiden kanssa osana arkistotiedostoa, voidaan lähettää ZIP -, GZIP-tai muussa pakatussa muodossa.
miksi tietojen pakkaaminen on tärkeää?
tietojen pakkaaminen voi dramaattisesti vähentää tiedoston tallennusmäärää., Esimerkiksi 2:1 puristussuhde, 20 megatavun (MB) tiedosto vie 10 MEGATAVUA tilaa. Pakkaamisen seurauksena ylläpitäjät käyttävät vähemmän rahaa ja vähemmän aikaa varastointiin.
Pakkaus optimoi tallennustilaa suorituskykyä ja on viime aikoina tullut ensisijainen varastointi tiedot vähentäminen. Pakkaaminen on tärkeä tiedon vähentämistapa, kun data jatkaa eksponentiaalista kasvuaan.
käytännössä minkä tahansa tiedoston voi pakata, mutta on tärkeää noudattaa parhaita käytäntöjä valitessaan, mitkä tiivistävät., Esimerkiksi jotkin tiedostot saattavat jo tulla pakattuina, joten niiden tiivistämisellä ei olisi merkittävää vaikutusta.
tietojen pakkausmenetelmät: häviötön ja häviöllinen pakkaus
tietojen puristus voi olla häviötön tai häviöllinen prosessi. Häviötön pakkaus mahdollistaa tiedoston palauttamisen alkuperäiseen tilaansa menettämättä yhtään bittiä dataa, kun tiedosto on pakkaamaton. Häviötön pakkaus on tyypillinen lähestymistapa executables, sekä teksti-ja taulukkolaskentatiedostot, jossa menetys sanoja tai numeroita muuttaisi tietoa.,
häviöllinen pakkaus poistaa pysyvästi databittejä, jotka ovat tarpeettomia, merkityksettömiä tai huomaamattomia. Häviöllinen pakkaus on hyödyllistä grafiikka, audio -, video-ja kuvia, jos poistaminen joitakin tietoja bittiä on vähän tai ei mitään havaittavaa vaikutusta edustus sisältöä.
Computer Science University of Nottingham,
käsitellään puristus tekstiä ja kuvia.
Grafiikkakuvan pakkaus voi olla häviöllinen tai häviötön., Graafiset kuvatiedostomuodot on tyypillisesti suunniteltu tiivistämään tietoa, koska tiedostot ovat yleensä suuria. JPEG on kuvatiedostomuoto, joka tukee häviöllistä kuvapakkausta. Formaatit kuten GIF ja PNG käyttävät häviötöntä pakkausta.
Puristus vs. data deduplication
Pakkaus on usein verrattu data deduplication, mutta kaksi tekniikkaa toimivat eri tavalla. Deduplication on eräänlainen pakkaus, joka etsii tarpeettomia palasia tietoja koko varastointi-tai tiedostojärjestelmän ja sitten korvaa jokaisen kaksoiskappaleen osoitin alkuperäiseen., Tiedot pakkausalgoritmit pienentää hieman merkkijonoja tietovirran, joka on paljon pienempi laajuudeltaan ja yleensä muistaa mitään enemmän kuin viime megatavua tai vähemmän tietoja.
Goodsite Group analyytikko Mike Matchett keskustelleet edut pakkaus ja deduplikointi ja miten nämä kaksi eroavat toisistaan.
Tiedosto-tason deduplication poistaa tarpeettomia tiedostoja ja korvaa ne stubs osoittaa alkuperäisen tiedoston. Lohkotason deduplikaatio tunnistaa päällekkäiset tiedot subfile-tasolla., Järjestelmä tallentaa kunkin lohkon yksilölliset tapaukset, käyttää hajautusalgoritmia niiden käsittelyyn ja luo yksilöllisen tunnisteen niiden tallentamiseksi indeksiin. Deduplication etsii tyypillisesti suurempia palasia päällekkäisiä tietoja kuin pakkaus, ja järjestelmät voivat deduplicate käyttäen kiinteä tai muuttuvan kokoinen pala.
Deduplication on tehokkain ympäristöissä, joissa on korkea tarpeettomia tietoja, kuten virtual desktop infrastructure tai varastointi varmuuskopio järjestelmissä., Tietojen pakkaaminen on yleensä tehokkaampaa kuin deduplication uniikkien tietojen, kuten kuvien, äänen, videoiden, tietokantojen ja suoritettavien tiedostojen koon pienentämisessä. Monet tallennusjärjestelmät tukevat sekä Pakkaus-että deduplikointia.
Data compression ja varmuuskopiointi
Pakkaus käytetään usein tietoja, joita ei ole näytetty paljon, koska prosessi voi olla intensiivinen, ja hidastuu järjestelmissä. Ylläpitäjät voivat kuitenkin integroida pakkauksen saumattomasti varajärjestelmiinsä.
varmuuskopiointi on tarpeeton työmäärän tyyppi, sillä prosessi kaappaa samat tiedostot usein., Organisaatio, joka suorittaa täydet varmuuskopiot on usein lähellä samoja tietoja varmuuskopiosta varmuuskopiointi.
On olemassa merkittäviä etuja pakkaamalla tiedot ennen varmuuskopiointi:
- Data vie vähemmän tilaa, kuin puristus-suhde voi olla 100:1, mutta välillä 2:1 ja 5:1 on yhteinen.
- Jos pakkaus on tehty palvelimella, ennen lähetystä, aikaa tarvitaan lähetä tiedot ja koko verkon kaistanleveys ovat vähentyneet merkittävästi.
- nauhalla pakattu, pienempi tiedostojärjestelmän kuva voidaan skannata nopeammin tietyn tiedoston saavuttamiseksi, mikä vähentää palautusviivettä.,
- pakkausta tukevat varmuuskopiointiohjelmistot ja nauhakirjastot, joten on olemassa valikoima tietojen pakkaustekniikoita.
Hyödyt ja haitat pakkaus
tärkeimmät edut puristus on vähentää varastointi laitteisto -, tiedonsiirto-aika ja viestintä kaistanleveys — ja tuloksena kustannussäästöjä. Pakatun tiedoston vaatii vähemmän tallennustilaa kuin pakkaamaton tiedosto, ja käyttää puristus voi johtaa merkittävä lasku kulut, levy ja/tai solid-state-asemat., Pakattu tiedosto vaatii myös vähemmän aikaa siirtoon, ja se kuluttaa vähemmän verkon kaistanleveyttä kuin pakkaamaton tiedosto.
suurin haitta tiedon pakkaus on suorituskykyä vaikutuksia, jotka johtuvat käytöstä CPU ja muisti resursseja pakata tietoja ja suorittaa purku. Monet myyjät ovat suunnitelleet järjestelmänsä yrittää minimoida prosessori-intensiivinen laskelmat liittyy puristus. Jos pakkaus toimii inline, ennen kuin tiedot kirjoitetaan levylle, järjestelmä voi purkaa pakkaus säilyttää järjestelmän resursseja., Esimerkiksi IBM käyttää erillistä laitteistokiihdytyskorttia käsitelläkseen pakkausta joidenkin enterprise storage-järjestelmiensä kanssa.
Jos tiedot on pakattu, kun se on kirjoitettu levylle, tai post-prosessi, puristus voi ajaa taustalla, vähentää vaikutusta suorituskykyyn. Vaikka post-prosessi pakkaus voi vähentää vasteaika kullekin input/output (I/O), se silti kuluttaa muistia ja prosessorin syklit ja voi vaikuttaa koko määrä I/Os varastointi järjestelmä voi käsitellä., Lisäksi, koska tiedot on aluksi kirjoitettava levylle tai muistitikuille pakkaamattomassa muodossa, fyysiset tallennussäästöt eivät ole yhtä suuria kuin inline-puristuksessa.
Data compression techniques: Tiedosto system puristus
File system puristus kestää melko suoraviivainen lähestymistapa vähentää varastoinnin jalanjälki tietoja avoimesti puristamalla jokaisesta tiedostosta sellaisena, kuin se on kirjoitettu.
Monet suosittu Linux-järjestelmät-mukaan lukien Reiser4, ZFS ja btrfs-ja Microsoft NTFS on puristus vaihtoehto., Palvelin pakkaa palasia tietoja tiedostoon ja kirjoittaa sitten pienemmät palaset tallennettavaksi.
Read-back sisältää suhteellisen pienen viiveen jokaisen fragmentin laajentamiseen, kun taas kirjoittaminen lisää palvelimelle huomattavaa kuormitusta, joten pakkausta ei yleensä suositella haihtuville tiedoille. Tiedostojärjestelmän pakkaus voi heikentää suorituskykyä, joten se olisi otettava käyttöön valikoivasti tiedostoihin, joita ei käytetä usein.,
Historiallisesti, kallista kiintolevyt alussa tietokoneet, tietojen pakkaaminen ohjelmisto, kuten DiskDoubler ja SuperStor Pro, olivat suosittuja, ja auttoi luomaan valtavirran file system puristus.
tallennustilan ylläpitäjät voivat myös käyttää pakkaustekniikkaa ja deduplikointia tietojen vähentämisen parantamiseksi.
Teknologioita ja tuotteita, jotka käyttävät tietoja puristus
Pakkaus on rakennettu monenlaisia tekniikoita, mukaan lukien varastointi-järjestelmät, tietokannat, käyttöjärjestelmät ja ohjelmisto sovellukset, joita käytetään yritysten ja yritysten organisaatioiden., Tietojen tiivistäminen on yleistä myös kuluttajalaitteissa, kuten kannettavissa tietokoneissa, tietokoneissa ja matkapuhelimissa.
monet järjestelmät ja laitteet suorittavat puristuksen läpinäkyvästi, mutta jotkut antavat käyttäjille mahdollisuuden kytkeä puristus päälle tai pois päältä. Se voidaan suorittaa useammin kuin kerran saman tiedoston tai pala tiedot, mutta myöhemmin painelu aiheuttaa vähän mitään ylimääräisiä puristus ja voi jopa lisätä koko tiedoston vähäisessä määrin, riippuen tiedon pakkaus algoritmeja.
WinZip on suosittu Windows-ohjelma, joka pakkaa tiedostot, kun se pakkaa ne arkistoon., Arkisto tiedostomuodot, jotka tukevat Pakkaus ovat ZIP ja RAR. Bzip2-ja GZIP-formaatit näkevät laajaa käyttöä yksittäisten tiedostojen puristamiseen.
Muut myyjät, jotka tarjoavat pakkaus sisältää Dell EMC sen XtremIO all-flash array, Kaminario sen K2-kaikki-flash array ja RainStor sen tietojen pakkaaminen ohjelmisto.
Tietoja eroteltua
Tietojen eroavaisuudet on yleinen termi vertailla sisältöä kaksi data objects., Yhteydessä puristus, se liittyy toistuvasti hakuja kohdetiedosto on löytää samanlaiset lohkot ja niiden korvaaminen viittaus kirjasto-objekti. Tämä prosessi toistaa, kunnes se ei löydä ylimääräisiä kaksoiskappaleita. Tietojen erilaistuminen voi johtaa moniin pakattuihin tiedostoihin, joissa on vain yksi elementti kirjastossa edustaen jokaista päällekkäistä objektia.
virtuaalisissa pöytätietokoneissa tässä tekniikassa voi olla puristussuhde jopa 100:1., Prosessi on usein paremmin linjassa deduplikaation kanssa, joka etsii identtisiä tiedostoja tai objekteja, eikä kunkin objektin sisällön sisällä.
tietojen erilaistumista kutsutaan joskus deduplikaatioksi.