Kaj je deduplikacija?

Deduplikacija je postopek, ki se uporablja za odpravo odvečnih podatkov. Med postopkom se trdi disk računalnika skenira za velika zaporedja podatkov v primerjalnih oknih. Med skeniranjem za podvojene podatke se običajno izberejo zaporedja osem kilobajtov ali več. Če je zaporedje najdeno drugje v sistemu za shranjevanje, se podvojena datoteka sklicuje in ne ponovno shrani.

Uspešna deduplikacija lahko odstrani več kilobajtov podatkov v računalniku, kar vodi do očitnih koristi. Podvajanje podatkov zavzame nepotreben prostor v sistemu, in ko odstranimo odvečne podatke, to pusti uporabniku več prostora za shranjevanje v računalniku. To bo omogočilo, da bo sistem deloval hitreje in učinkoviteje, saj ni zamašen z dodatnimi podatki. Poleg tega je izboljšanje pasovne širine vedno bolj opazno, ko ima računalnik več prostega prostora.

Odpravljanje podvajanja vključuje sklicevanje velike količine podatkov na prvo lokacijo in brisanje dodatnih kopij podatkov, ki pa se indeksirajo, če bi jih potrebovali. Pogosto se lahko isti natančni podatki shranijo na kar 100 različnih mestih na trdem disku. Če vsak zasede en megabajt prostora, bo deduplikacija ta prostor na trdem disku zmanjšala s 100 megabajtov na samo enega. Postopek poteka tako, da se podatki arhivirajo, dodatni prostor, ki se pridobi, pa je zelo koristen za trdi disk računalnika.

Dodatne prednosti odprave podvajanja vključujejo zmanjšanje količine potrebnega prostora za varnostno kopiranje za kar 90 odstotkov, zmanjšanje stroškov, kot so potrebe po energiji, prostoru in hlajenju, obnovitev višje ravni storitev, odpravljanje številnih različnih vrst napak in obnovitev podatkov na več načinov. različne točke. Pomanjkljivost deduplikacije je, da identificira podvojene podatke s pomočjo kriptografskih zgoščenih funkcij, ki so lahko nezanesljive, trčenje ali druga vrsta napake pa bi povzročila izgubo podatkov. Če oseba, ki je odobrila postopek, se ne zaveda zmanjšanja redundance, lahko to negativno vpliva na zanesljivost računalnika.

Odpravljanje podvajanja podatkov deluje tako, da najprej segmentira vsak del podatkov, ki se obdeluje. Vsak segment je identificiran in primerjan s podatki, ki so že v sistemu. Če so podatki edinstveni, so shranjeni na disku. Če gre za podvojeni del podatkov, se namesto tega ustvari referenca. Odpravljanje podvajanja je mogoče izvesti s programsko opremo, imenovano Data Domain, ki deluje s sistemi za shranjevanje podatkov in shranjevanja za filtriranje podatkov, sklicevanje, odstranjevanje ali shranjevanje vsakega bajta, kot je primerno.