System tworzenia kopii zapasowych — teoria
1. Wszyscy o tym wiemy
O potrzebie wykonywania regularnych kopii zapasowych wiedzą wszyscy. Nawet jeśli ktoś jeszcze nie do końca zdaje sobie z tego sprawę, to zauważy taką konieczność po pierwszej awarii dysku twardego, uszkodzeniu systemu plików czy przypadkowym usunięciu ważnego pliku. Prawa Murphy'ego sugerują, że wydarzy się to wcześniej lub później, z pewnością zaś w najmniej oczekiwanym momencie. Warto więc dobrze się przygotować na tę okoliczność.
Tekst ten nie stanowi kompendium wiedzy na temat wykonywania kopii zapasowych. Porusza przede wszystkim zagadnienia teoretyczne związane z kopiami plików. Temat wykonywania i zarządzania kopiami baz danych jest zbyt obszerny, by znalazł się w tym artykule. Jest jednak bardzo prawdopodobne, że zostanie poruszony w innym tekście.
2. Kopia zapasowa a archiwizacja
Wykonywanie kopii zapasowej danych (ang. backup copy) i archiwizacja danych (ang. archiving) to pojęcia oznaczające dwa procesy, których częścią wspólną są dane, a które różnią się celem, przebiegiem i wykorzystywanymi środkami.
Kopia zapasowa powinna umożliwiać szybkie przywrócenie systemu do działania w przypadku awarii (ang. disaster recovery). Najczęściej zawiera więc nie tylko kopię plików, ale również aplikacji i całego systemu operacyjnego. Może też uwzględniać informacje pozwalające na uruchomienie systemu na przykład w sytuacji nadpisania boot recordu, przy jednoczesnym zachowaniu integralności pozostałych danych. Ze względu na koszty, w praktyce stosuje się zawsze nośniki wielokrotnego zapisu.
Kojarzenie archiwizacji z bardzo dobrze skatalogowanym archiwum, z którego można wyciągnąć dowolne zbiory jest właściwe. Archiwizowane są dane (bez aplikacji czy plików systemowych), które nie muszą być już modyfikowane. Archiwizacja jest najczęściej wykonywana na medium tańszym od twardego dysku (na przykład na napędach taśmowych), a zasób udostępniany jest w trybie tylko do odczytu.
Cykliczne archiwizowanie danych przyśpiesza wykonywanie bieżących kopii zapasowych — nie ma sensu kopiować codziennie danych, które po raz ostatni zostały zmienione 2 lata temu i nie mają prawa być już kiedykolwiek zmodyfikowane. Przy archiwizacji danych istotne znaczenie ma czas życia nośników danych i właściwy sposób ich przechowywania.
3. Rodzaje kopii bezpieczeństwa
Kopie zapasowe mogą być tworzone przede wszystkim w celu umożliwienia:
odzyskania pojedynczych plików utraconych w wyniku skasowania lub nadpisania zawartości,
wykonania operacji przywrócenia do działania całego systemu, nawet bez konieczności reinstalacji systemu operacyjnego (ang. bare-metal restore).
W zależności od tego należy dobrać odpowiednie narzędzie wykonujące kopię bezpieczeństwa.
Podział ze względu na strategię dodawania plików do tworzonej kopii:
kopia pełna — kopiowane są wszystkie pliki, niezależnie od daty ich ostatniej modyfikacji, najczęściej stanowi podstawę dla kopii różnicowych i przyrostowych; wykonanie kopii może być czasochłonne; odzyskiwanie danych jest szybkie, wymagany jest tylko jeden nośnik
kopia przyrostowa — kopiowane są pliki, które zostały zmodyfikowane (lub utworzone) od czasu wykonania ostatniej pełnej lub przyrostowej kopii; czas wykonywania kopii może być dość krótki; odtworzenie danych wymaga odtworzenia najpierw ostatniego pełnego backupu, a następnie wszystkich następujących przyrostowych
kopia różnicowa — kopiowane są pliki, które zostały zmodyfikowane (lub utworzone) od czasu wykonania ostatniej pełnej kopii; czas wykonywania kopii różnicowej jest stosunkowo krótki, ale rośnie wraz z każdą kolejną kopią; odtworzenie danych wymaga odtworzenia najpierw ostatniego pełnego backupu, a następnie ostatniej kopii różnicowej
4. RAID to nie backup
Za Wikipedią:
RAID (ang. Redundant Array of Independent Disks, Nadmiarowa macierz niezależnych dysków) — polega na współpracy dwóch lub więcej dysków twardych w taki sposób, aby zapewnić dodatkowe możliwości, nieosiągalne przy użyciu jednego dysku. RAIDu używa się w następujących celach:
- zwiększenie niezawodności (odporność na awarie)
- przyspieszenie transmisji danych
- powiększenie przestrzeni dostępnej jako jedna całość
W żadnym wypadku nie oznacza to jednak, że RAID zastępuje kopię bezpieczeństwa. Nie chroni między innymi przed:
fizycznym zniszczeniem serwera w wyniku katastrofy — jeśli dane nie będą znajdowały się w innej lokalizacji, to pożar lub zalanie serwera może doprowadzić do ich utraty
awarią kontrolera dysków — uszkodzenie sprzętowego kontrolera realizującego funkcję RAID może uszkodzić wszystkie dane przechowywane na dyskach, bez znaczenia z którego trybu RAID serwer będzie korzystał
błędami ludzkimi — usunięcie plików zostanie rozpropagowane na wszystkie dyski wchodzące w skład macierzy; RAID przechowuje zawsze aktualną kopię plików i nie daje możliwości odwołania się do wersji plików sprzed kilku dni czy tygodni
Warto jeszcze raz podkreślić, że RAID to nie backup.
5. Strategia kopiowania
Ciągłe wykonywanie pełnej kopii danych na tych samych nośnikach jest jednym z podstawowych błędów. Przede wszystkim — nie pozwala na zachowanie historii wykonywanych zmian. Nie chroni więc przed sytuacją, kiedy fakt uszkodzenia plików jest odnotowywany w kilka dni po awarii. Zastosowanie wielu nośników i właściwego harmonogramu rotacji nośników rozwiązuje ten problem.
Powszechnie stosuje się jeden z dwóch harmonogramów rotacji nośników wykorzystywanych do tworzenia kopii bezpieczeństwa.
Dziadek-Ojciec-Syn
Hierarchia GFS (Dziadek-Ojciec-Syn) została zaprojektowana do archiwizacji na streamerze, jednak sprawdza się również przy innych nośnikach. Jest to jeden z najpopularniejszych algorytmów rotacji nośników. Zakładając pięciodniowy tydzień pracy, kolejne nośniki oznaczane są w sposób następujący:
poziom „Syn” — cztery oznaczają kolejne dni tygodnia: poniedziałek, wtorek, środę, czwartek; codziennie będą wykonywane na nich kopie przyrostowe
poziom „Ojciec” — pięć oznaczonych zostaje kolejnymi numerami tygodni: tydzień 1., tydzień 2. i tak do tygodnia 5.; w każdy piątek będzie wykonywana na nich pełna kopia
poziom „Dziadek” — dwanaście powinno zostać opisane nazwami kolejnych miesięcy, na koniec każdego miesiąca będzie wykonywana na nich pełna kopia; powinny być przechowywane poza miejscem, w którym znajdują się serwery
Ostatecznie, do wykonania rocznego cyklu, potrzeba 21 kompletów nośników danych (nie zawsze wystarczy jedna płyta lub kaseta).
Prostsza odmiana schematu Dziadek-Ojciec-Syn
Nie jest to zupełnie nowy algorytm, a jedynie uproszczona wersja schematu Dziadek-Ojciec-Syn. Zaletą jest jej prostota oraz niższy koszt — wymaga jedynie 6 nośników (kompletów nośników, jeśli tego wymaga objętość danych), dlatego też najprawdopodobniej zainteresują się nim mniejsze firmy. Pozwala na zachowanie historii z 2 tygodni.
Podobnie jak w algorytmie, na którym bazuje, zakłada się pięciodniowy tydzień pracy, a kolejne nośniki oznaczane są w następujący sposób:
cztery oznaczają kolejne dni tygodnia: poniedziałek, wtorek, środę, czwartek; codziennie będą wykonywane na nich kopie przyrostowe
dwa oznaczyć należy jako piątekI i piątekII; zamiennie, co drugi tydzień będzie wykonywana na nich pełna kopia
Wieża Hanoi
Drugą popularną strategią wykonywania kopii jest Wieża Hanoi. Jest bardziej skomplikowana od metody Dziadek-Ojciec-Syn i trudniejsza do wdrożenia. Jej zaletą jest niższy koszt wykonania pełnej rocznej kopii (zaleta przy konieczności przechowywania kopii przez dłuższy okres czasu).
Nośniki oznaczane są kolejnymi literami alfabetu: A, B, itd. (w poniższym przykładzie mamy 5 nośników). Proces rozpoczynamy od nośnika A i używamy go cyklicznie co drugi dzień. Na nośniku B zapisujemy kopię w pierwszy dzień, w którym nie został użyty nośnik A. Nośnik B będzie teraz wykorzystywany co czwarty dzień cyklu. Kolejny nośnik (C) zostaje użyty po raz pierwszy, kiedy nie był wykorzystywany nośnik A ani nośnik B i będzie wykorzystywany cyklicznie co 8 dni. W łatwy sposób można dodawać kolejne nośniki.
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| A | A | A | A | A | A | A | A | ||||||||
| B | B | B | B | ||||||||||||
| C | C | ||||||||||||||
| D | |||||||||||||||
| E |
Przyjmuje się, że wykorzystanie schematu Wieży Hanoi do wykonywania kopii raz na tydzień wymaga użycia 5 nośników. Dla kopii wykonywanych codziennie zaleca się wykorzystanie 8 nośników. Oczywiście zamiast pojedynczego nośnika może być konieczne wykorzystanie zestawu nośników.
6. Najważniejszy jest plan
Rozpoczęcie wykonywania kopii bezpieczeństwa należy zacząć od… przemyślenia jakimi środkami dysponujemy, jak duże poniesiemy straty w przypadku utraty danych i jaką część tej kwoty jesteśmy w stanie wydać by uniknąć przykrych konsekwencji awarii.
Być systematycznym
Podkreśla się to w większości tekstów poświęconych backupom i jest to zasada na tyle istotna, że przypomnę ją również tutaj — pierwszym i najważniejszym przykazaniem wykonywania kopii bezpieczeństwa jest systematyczność.
Kopie wykonywane nieregularnie mają dziwną przypadłość: albo w ogóle nie da się ich odtworzyć albo też zawierają dane przeterminowane, wykonane dokładnie tuż przed ostatnimi ważnymi zmianami w dokumencie, projekcie lub systemie księgowym. Generalnie — nie są do niczego przydatne w sytuacji awaryjnej. Regularne wykonywanie backupów powinno stać się nawykiem. Dopilnowanie ustalonego harmonogramu najlepiej powierzyć bezdusznej maszynie i samemu ograniczyć się do wymiany nośników danych oraz okresowego sprawdzania czy cały system w ogóle jeszcze działa.
Jakie urządzenie wybrać
Odpowiedź jest prosta — odpowiednie do konkretnych potrzeb. Na potrzeby użytku w domu lub małej firmie najprawdopodobniej wystarczy nagrywarka z kompletem płyt DVD+/-RW lub zastosowanie przenośnego dysku twardego podłączanego przez interfejs USB (wskazana wersja 2.0 ze względu na transfer 480Mb/s) lub FireWire (transfer 400 lub 800Mb/s).
Firmy generujące więcej danych zainteresują się najprawdopodobniej streamerami. Wraz ze wzrostem ilości danych, rosną wymagania stawiane systemowi backupowemu i ważny staje się nie tylko koszt 1GB przestrzeni i pojemność, ale również pełna automatyzacja procesu, szybkość wykonywania oraz niezawodność.
Niezależnie od wybranej technologii koniecznie należy wziąć pod uwagę możliwość uszkodzenia urządzenia, które wykonuje kopię danych. Awaria w trakcie normalnej pracy spowoduje przerwanie wykonywania kopii, ale raczej nie sparaliżuje pracy firmy. Problem pojawi się w momencie, kiedy uszkodzenie nastąpi (znów Prawa Murphy'ego) tuż po awarii całego systemu, a administrator zostanie z ognioodporną szafą wypełnioną utrzymanymi w doskonałym stanie nośnikami. Nośnikami, których nie ma gdzie odczytać. Rozwiązaniem jest stosowanie popularnych technologii, posiadanie zapasowego urządzenia lub dobrego kontraktu serwisowego. Stosowanie technologii mało popularnych to proszenie się o kłopoty.
Gdzie przechowywać
Nośniki na których została zapisana kopia bezpieczeństwa powinny być transportowane i przechowywane w odpowiednich warunkach, pamiętając o zaleceniach ich producentów.
Orientacyjna trwałość zewnętrznych nośników danych oraz podstawowe zasady przechowywania:
dyski optyczne CD i DVD: teoretycznie do 100 lat, ale w praktyce najtańsze płyty sprawiają problemy po 2 latach; są odporne na działanie pola elektromagnetycznego, należy chronić je przed wysoką temperaturą oraz nie wystawiać na działanie promieni słonecznych
dyski magnetooptyczne: do 50 lat; są odporne na działanie pola elektromagnetycznego
taśmy magnetyczne: do 20 lat; należy chronić je przed działaniem pola elektromagnetycznego (monitory, głośniki, urządzenie elektryczne wysokiej mocy, itp.)
Ważne jest, by nośniki nie znajdowały się w żadnym wypadku w tym samym pomieszczeniu, a jeszcze lepiej — budynku, co urządzenia, z których dane przechowują. Zapobiegnie to jednoczesnemu uszkodzeniu danych oryginalnych i ich kopii w wyniku katastrofy (pożar, powódź, przepięcie w sieci energetycznej) lub kradzieży. Jednocześnie muszą znajdować się w takiej odległości, by możliwe było ich szybkie dostarczenie i odzyskanie danych.
Wyjątkowo wymagający mogą skorzystać z usług specjalistycznych firm.
Co pewien okres czasu warto sprawdzić czy nadal jest możliwe odzyskanie systemu z posiadanych nośników. Dzięki temu nie tylko zostanie sprawdzony ich stan, ale również przetestowane zostaną procedury wykonywania kopii bezpieczeństwa.
W jaki sposób odzyskać
Zestaw płyt DVD lub kaset do streamera wypełnionych ważnymi danymi nie stanowi jeszcze kopii bezpieczeństwa. Niezbędne jest opracowanie procedury pozwalającej na odzyskanie danych, przeszkolenie pracowników i wyznaczenie osób odpowiedzialnych za cały proces. Należy również zadbać, aby dostęp do nośników z danymi był możliwy w określonym, maksymalnym czasie.
7. Co dalej
W kolejnym artykule informacje teoretyczne zostaną wykorzystane do wdrożenia praktycznego systemu tworzenia kopii zapasowych w systemie GNU/Linux i innych *nixowych.

