Metoda na zwiększenie efektywności backupu

Backup, czyli tworzenie kopii zapasowych to doskonałe rozwiązanie pozwalające na skuteczne odzyskanie ewentualnie utraconych danych. Niestety w określonych przypadkach przechowywanie dużej ilości kopii może sprawiać trudności i być dość kosztowne.

Wady backupu

W przypadku użytkowników domowych największym problemem związanym z tworzeniem kopii zapasowych może być ograniczona przestrzeń dyskowa. Wprawdzie koszt zakupu dysku zewnętrznego nie jest obecnie duży, jednak zawsze będzie stanowił dodatkowy wydatek.

Problem nasila się w warunkach biznesowych. Ilość danych gromadzonych przez duże firmy i konieczność przeprowadzania backupu powoduje znaczny wzrost kosztów związanych z gromadzeniem kopii zapasowych. W związku z tym konieczne było znalezienie metody, która znacznie usprawni proces tworzenia kopii zapasowych i ograniczy ilość miejsca niezbędnego do ich przechowywania. Metodą tą jest deduplikacja danych.

Czym jest deduplikacja?

W najprostszym rozumieniu backup polega na tworzeniu skompresowanych kopii wszystkich plików znajdujących się np. na dysku. Regularnie przeprowadzany zmniejsza ryzyko utraty danych, ale też zwiększa niezbędną ilość miejsca do przechowywania kopii. Niestety każdy proces tworzenia kopii zapasowych wymaga kolejnej ilości miejsca na dysku, choć większość plików zostaje powtórzona.

Rozwiązaniem jest deduplikacja, czyli eliminowanie powtarzających się elementów w zbiorze danych. Obecnie wyróżnić można cztery metody działania procesu deduplikacji:

  • Eliminacja identycznych składników – jest to pierwsza metoda deduplikacji wykorzystująca algorytm hashowy. Algorytm bada hashe plików i w sytuacji, gdy są one identyczny (zduplikowane), jeden z nich zostaje usunięty. Niestety metoda ta działa tylko w sytuacji, gdy pliki nie posiadają żadnych różnic w hashu. Nawet delikatna modyfikacja pliku sprawia jednak, że ten musi zostać zapisany ponownie.
  • Deduplikacja blokiem o stałej wielkości – nowocześniejsza metoda polegająca na dzieleniu każdego pliku na bloki, czyli sekwencje bajtów o identycznych rozmiarach. W ten sposób badany jest hash nie całego pliku, ale jego poszczególnych bloków. Dzięki temu możliwe jest modyfikowanie pliku i jego zwiększanie poprzez dodawanie kolejnych bloków podczas backupu. Kopia zapasowa pliku nie jest duplikowana, a jedynie modyfikowana. Minusem tej metody jest jej ograniczona funkcjonalność. Radzi ona sobie bowiem z modyfikacjami danych dokonanymi tylko na końcu, czyli w ostatnim bloku lub poprzez dodanie kolejnego. Modyfikacje między blokami wymagają ponownego zapisania całej sekwencji bloków od miejsca, w którym modyfikacja została dokonana.
  • Deduplikacja blokiem o zmiennej wartości – rozwiązanie alternatywne dla deduplikacji blokiem o stałej wielkości. W tej sytuacji plik również dzielony jest na bloki, jednak mogą one różnić się swoją wielkością (od 1 bajta do wielkości całego pliku). Metoda ta rozpoznaje zmiany dokonywane w każdym miejscu, także na początku i w środku pliku, dzięki czemu zwiększa efektywność kompresji. Niestety zastosowane w tym celu algorytmy i zmienne wartości bloków sprawiają, że jest ona metodą długotrwałą.
  • Deduplikacja progresywna – łączy ona najlepsze cechy dwóch opisanych powyżej metod. Dzięki temu, w każdym miejscu, w którym jest to możliwe, stosowana jest deduplikacja blokiem o stałej wartości, co zwiększa czas przeprowadzania całego procesu. Jednocześnie możliwe jest także modyfikowanie plików w dowolnym miejscu, gdyż są one rozpoznawane i odpowiednio kompresowane. Jest to obecnie najefektywniejsza forma deduplikacji danych.

Deduplikacja danych umożliwia znacznie zmniejszenie przestrzeni niezbędne do tworzenia kopii zapasowych i zwiększa efektywność całego procesu. Jest ona najkorzystniejsza w przypadku dużych firm, gdyż pozwala zmniejszyć budżet niezbędny do archiwizacji danych cyfrowych.

Jeśli masz dodatkowe pytania, nie wahaj się tylko dzwoń już teraz.

Przeczytaj również

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *