compresia datelor este o reducere a numărului de biți necesari pentru reprezentarea datelor. Comprimarea datelor poate economisi capacitatea de stocare, poate accelera transferul de fișiere și poate reduce costurile pentru hardware-ul de stocare și lățimea de bandă a rețelei.
cum funcționează compresia
compresia este efectuată de un program care utilizează o formulă sau un algoritm pentru a determina cum să micșoreze Dimensiunea datelor., De exemplu, un algoritm poate reprezenta un șir de biți – sau 0s și 1s – cu un șir mai mic de 0s și 1s folosind un dicționar pentru Conversia dintre ele, sau formula poate insera o referință sau un pointer la un șir de 0s și 1s că programul a văzut deja.compresia textului poate fi la fel de simplă ca eliminarea tuturor caracterelor care nu sunt necesare, inserarea unui singur caracter de repetare pentru a indica un șir de caractere repetate și înlocuirea unui șir de biți mai mic cu un șir de biți care apare frecvent., Compresia datelor poate reduce un fișier text la 50% sau un procent semnificativ mai mare din dimensiunea inițială.pentru transmiterea datelor, compresia poate fi efectuată pe conținutul datelor sau pe întreaga unitate de transmisie, inclusiv datele antetului. Când informațiile sunt trimise sau primite prin internet, Fișierele mai mari, fie singure, fie cu altele, ca parte a unui fișier de arhivă, pot fi transmise într-un format ZIP, GZIP sau alt format comprimat.
de ce este importantă compresia datelor?
compresia datelor poate reduce dramatic cantitatea de spațiu de stocare pe care un fișier o ocupă., De exemplu, într-un raport de compresie de 2:1, un fișier de 20 megabyte (MB) ocupă 10 MB de spațiu. Ca urmare a compresiei, administratorii cheltuiesc mai puțini bani și mai puțin timp pentru stocare.compresia optimizează performanța stocării de rezervă și a apărut recent în reducerea datelor de stocare primară. Compresia va fi o metodă importantă de reducere a datelor, deoarece datele continuă să crească exponențial.practic, orice tip de fișier poate fi comprimat, dar este important să urmați cele mai bune practici atunci când alegeți care dintre ele să comprimați., De exemplu, unele fișiere pot fi deja comprimate, astfel încât comprimarea acestor fișiere nu ar avea un impact semnificativ.
metode de compresie a datelor: compresie fără pierderi și pierderi
comprimarea datelor poate fi un proces fără pierderi sau pierderi. Compresie fără pierderi permite restaurarea unui fișier la starea inițială, fără pierderea unui singur bit de date, atunci când fișierul este necomprimat. Compresie fără pierderi este abordarea tipică cu executabile, precum și fișiere text și foi de calcul, în cazul în care pierderea de cuvinte sau numere ar schimba informațiile.,compresia cu pierderi elimină permanent biți de date care sunt redundante, neimportante sau imperceptibile. Compresie Lossy este util cu grafica, audio, video și imagini, în cazul în care eliminarea unor biți de date are puțin sau deloc efect perceptibil asupra reprezentării conținutului.
Calculator Știință de la Universitatea din Nottingham,
discută de compresie de text și imagini.
compresia imaginilor grafice poate fi fără pierderi sau fără pierderi., Formatele de fișiere imagine grafică sunt de obicei concepute pentru a comprima informații, deoarece fișierele tind să fie mari. JPEG este un format de fișier imagine care acceptă compresie imagine cu pierderi. Formate precum GIF și PNG utilizează compresie fără pierderi.compresia este adesea comparată cu deduplicarea datelor, dar cele două tehnici funcționează diferit. Deduplicarea este un tip de compresie care caută bucăți redundante de date într-un sistem de stocare sau de fișiere și apoi înlocuiește fiecare bucată duplicat cu un pointer la original., Algoritmii de compresie a datelor reduc dimensiunea șirurilor de biți într-un flux de date care este mult mai mic în domeniul de aplicare și, în general, nu își amintește mai mult decât ultimul megabyte sau mai puțin de date.analistul grupului Taneja, Mike Matchett, a discutat despre beneficiile compresiei și deduplicării și despre modul în care cele două diferă.deduplicarea la nivel de fișier elimină fișierele redundante și le înlocuiește cu cioturi care indică fișierul original. Deduplicarea la nivel de bloc identifică datele duplicate la nivelul subfișierului., Sistemul salvează instanțe unice ale fiecărui bloc, utilizează un algoritm hash pentru a le procesa și generează un identificator unic pentru a le stoca într-un index. Deduplicarea caută de obicei bucăți mai mari de date duplicate decât compresia, iar sistemele se pot deduplica folosind o bucată fixă sau variabilă.deduplicarea este cea mai eficientă în medii care au un grad ridicat de date redundante, cum ar fi infrastructura desktop virtuală sau sistemele de stocare de rezervă., Compresia datelor tinde să fie mai eficientă decât deduplicarea în reducerea dimensiunii informațiilor unice, cum ar fi imagini, audio, videoclipuri, baze de date și fișiere executabile. Multe sisteme de stocare acceptă atât compresia, cât și deduplicarea.compresia este adesea folosită pentru datele care nu sunt accesate prea mult, deoarece procesul poate fi intensiv și poate încetini sistemele. Administratorii, totuși, pot integra perfect compresia în sistemele lor de rezervă.
Backup este un tip redundant de încărcare de lucru, deoarece procesul captează frecvent aceleași fișiere., O organizație care efectuează copii de rezervă complete va avea adesea aproape aceleași date de la backup la backup.există beneficii majore pentru comprimarea datelor înainte de backup:
- datele ocupă mai puțin spațiu, deoarece un raport de compresie poate ajunge la 100:1, dar între 2:1 și 5:1 este comun.
- dacă compresia se face pe un server înainte de transmitere, timpul necesar pentru transmiterea datelor și lățimea de bandă totală a rețelei sunt reduse drastic.
- pe bandă, imaginea comprimată, mai mică a sistemului de fișiere poate fi scanată mai rapid pentru a ajunge la un anumit fișier, reducând latența de restaurare.,
- compresia este susținută de software-ul de rezervă și bibliotecile de bandă, deci există o gamă de tehnici de compresie a datelor.avantajele principale ale compresiei sunt o reducere a hardware-ului de stocare, a timpului de transmisie a datelor și a lățimii de bandă de comunicare-și economiile de costuri rezultate. Un fișier comprimat necesită o capacitate de stocare mai mică decât un fișier necomprimat, iar utilizarea compresiei poate duce la o scădere semnificativă a cheltuielilor pentru unitățile de disc și/sau SSD., Un fișier comprimat necesită, de asemenea, mai puțin timp pentru transfer și consumă mai puțină lățime de bandă a rețelei decât un fișier necomprimat.principalul dezavantaj al compresiei datelor este impactul asupra performanței care rezultă din utilizarea resurselor CPU și memorie pentru a comprima datele și a efectua decompresia. Mulți furnizori și-au proiectat sistemele pentru a încerca să minimizeze impactul calculelor intensive ale procesorului asociate compresiei. Dacă compresia rulează în linie, înainte ca datele să fie scrise pe disc, sistemul poate descărca compresia pentru a păstra resursele sistemului., De exemplu, IBM folosește un card de accelerare hardware separat pentru a gestiona compresia cu unele dintre sistemele sale de stocare pentru întreprinderi.
dacă datele sunt comprimate după ce sunt scrise pe disc sau după proces, compresia poate rula în fundal pentru a reduce impactul asupra performanței. Deși compresia post-proces poate reduce timpul de răspuns pentru fiecare intrare/ieșire (I/O), totuși consumă cicluri de memorie și procesor și poate afecta numărul total de I/Os pe care un sistem de stocare îl poate gestiona., De asemenea, deoarece datele inițial trebuie să fie scrise pe unități de disc sau flash într-o formă necomprimată, economiile fizice de stocare nu sunt la fel de mari ca în cazul compresiei inline.
tehnici de compresie a datelor: compresia sistemului de fișiere
compresia sistemului de Fișiere are o abordare destul de simplă pentru reducerea amprentei de stocare a datelor prin comprimarea transparentă a fiecărui fișier așa cum este scris.multe dintre cele mai populare sisteme de fișiere Linux – inclusiv Reiser4, ZFS și btrfs-și Microsoft NTFS au o opțiune de compresie., Serverul comprimă bucăți de date într-un fișier și apoi scrie fragmentele mai mici în stocare.
Read-back implică o latență relativ mică pentru a extinde fiecare fragment, în timp ce scrierea adaugă sarcină substanțială serverului, astfel încât compresia nu este de obicei recomandată pentru datele volatile. Compresia sistemului de fișiere poate slăbi performanța, deci ar trebui să fie implementată selectiv pe fișiere care nu sunt accesate frecvent.,
din punct de vedere Istoric, cu scump hard disk-uri de mai devreme calculatoare, de compresie a datelor software-ul, cum ar fi DiskDoubler și SuperStor Pro, au fost populare și a ajutat la stabilirea de masă sistem de fișiere compresie.administratorii de stocare pot aplica, de asemenea, tehnica de utilizare a compresiei și deduplicării pentru o reducere îmbunătățită a datelor.
tehnologii și produse care utilizează compresia datelor
compresia este integrată într-o gamă largă de tehnologii, inclusiv sisteme de stocare, baze de date, sisteme de operare și aplicații software utilizate de întreprinderi și organizații de întreprinderi., Comprimarea datelor este, de asemenea, frecventă în dispozitivele de consum, cum ar fi laptopuri, PC-uri și telefoane mobile.multe sisteme și dispozitive efectuează compresia în mod transparent, dar unele oferă utilizatorilor opțiunea de a activa sau dezactiva compresia. Poate fi efectuat de mai multe ori pe același fișier sau bucată de date, dar compresiile ulterioare au ca rezultat o compresie suplimentară mică sau deloc și pot chiar crește dimensiunea fișierului într-o ușoară măsură, în funcție de algoritmii de compresie a datelor.WinZip este un program popular Windows care comprimă fișierele atunci când le împachetează într-o arhivă., Formatele de fișiere de arhivă care acceptă compresia includ ZIP și RAR. Formatele BZIP2 și GZIP văd utilizarea pe scară largă pentru comprimarea fișierelor individuale.
Alte furnizori care oferă compresie includ Dell EMC cu XtremIO all-flash matrice, Kaminario cu K2 all-flash matrice și RainStor cu datele sale de compresie software-ului.
diferențierea datelor
diferențierea datelor este un termen general pentru compararea conținutului a două obiecte de date., În contextul compresiei, implică căutarea repetată prin fișierul țintă pentru a găsi blocuri similare și înlocuirea lor cu o referire la un obiect de bibliotecă. Acest proces se repetă până când nu găsește obiecte duplicate suplimentare. Diferențierea datelor poate duce la multe fișiere comprimate cu un singur element din bibliotecă reprezentând fiecare obiect duplicat.în desktopurile virtuale, această tehnică poate avea un raport de compresie de până la 100:1., Procesul este adesea mai strâns aliniat cu deduplicarea, care caută fișiere sau obiecte identice, mai degrabă decât în conținutul fiecărui obiect.
diferențierea datelor este uneori denumită deduplicare.