Pożar w serwerowni OVH w Strasburgu wpłynął na działanie wielu firm na świecie, w tym naszej, a za naszym pośrednictwem – na Was i Waszych Klientów.
Aby lepiej zrozumieć całe wydarzenie i jego wpływ na nasz system, postanowiliśmy zebrać poniżej aktualnie posiadane przez nas informacje. Opisujemy przebieg wydarzenia, przygotowane przez nas wcześniej scenariusze kryzysowe, przebieg prac podczas redukcji awarii oraz to, co najważniejsze, czyli plan zabezpieczeń na przyszłość.
Mamy nadzieję, że dzięki temu cała sytuacja będzie bardziej przejrzysta, a nasze działania w pełni zrozumiałe.
Awaria 10.03.2021
10 marca po północy doszło do bardzo poważnego pożaru w infrastrukturze serwerowni OVH w Strasburgu. W związku z tym, iż jest to jedno z największych tego typu centrum danych w Europie, pożar spowodował wyłączenie ponad 3,6 miliona stron internetowych na całym świecie. Awaria ta dotknęła wiele sklepów, stron informacyjnych, banków czy stron rządowych – we Francji, w Wielkiej Brytanii oraz w Polsce. Niestety BaseLinker również należy do grona poszkodowanych.
OVH jest znanym i renomowanym dostawcą serwerów w Europie. Z usług tego hostingodawcy korzystaliśmy od wielu lat i darzyliśmy firmę dużym zaufaniem. Dane przechowywane były na jednych z najdroższych maszyn dostępnych w ofercie (z najnowszych linii sprzętowych). Choć pożar nie dotknął naszych serwerów, ze względu na wyłączenie całego obszaru, dostęp do nich został czasowo ograniczony. Według naszej wiedzy tak długotrwała awaria pojedynczej serwerowni nie miała wcześniej w historii miejsca.
Gdy tylko dowiedzieliśmy się o pożarze – uruchomiliśmy wewnętrzne procedury odzyskiwania danych i od razu – nie czekając na informacje od OVH – przystąpiliśmy do stawiania nowej infrastruktury serwerów.
Dla zdecydowanej większości użytkowników udało nam się uruchomić kluczowe części systemu w niespełna 2 dni – awaria nastąpiła w środę 10.03 o godzinie 4 rano, system przywrócony został w czwartek 11.03 o godzinie 14:30 w przypadku Panelu-B, zaś o godzinie 23:30 dla Panelu-A. Przynależność do danego panelu wynika wyłącznie z kolejności rejestracji kont.
Według naszych statystyk, w piątek 12.03, większość użytkowników pakowała już paczki w standardowej ilości, zamówienia były pobierane na bieżąco. Niektóre mniejsze funkcje systemu przywracane były dopiero stopniowo w kolejnych dniach. Natomiast zależało nam na tym, by główna funkcja systemu – Manager Zamówień – była dostępna jak najszybciej.
Niestety w przypadku części Użytkowników (Panel-C) dostęp do kont został czasowo ograniczony – konieczne były dodatkowe działania ze strony serwerowni OVH. W związku z tym – aby użytkownicy Panelu-C mogli obsłużyć bieżącą sprzedaż – przygotowaliśmy opcję założenia kont tymczasowych na Panelu-D.
Postawienie nowego panelu w normalnych warunkach to tygodnie przygotowań – w tej wyjątkowej sytuacji zrobiliśmy wszystko, by był gotowy już następnego dnia po awarii.
Procedury bezpieczeństwa – backup danych
Od momentu pojawienia się pierwszych informacji o awarii uruchomiliśmy procedury bezpieczeństwa, by rozpocząć proces przywrócenia systemu do pełnego funkcjonowania.
Bezpieczeństwo danych ma dla nas znaczenie priorytetowe, dlatego budowaliśmy rozwiązanie w oparciu o system backupów. Nasze serwery w Strasburgu dla wszystkich paneli posiadały tzw. serwery lustrzane, czyli kopie, które zastępują się automatycznie i na bieżąco w razie awarii (czas pomiędzy awarią serwera głównego a przełączeniem na serwer awaryjny/ lustrzany to kwestia sekund).
Wydarzenia z 10 marca zmusiły nas do realizacji najtrudniejszego z możliwych scenariuszy – uruchomienia systemu na nowo, z kopii zapasowej. Mimo, że nasz serwer główny i serwer lustrzany nie zostały uszkodzone w czasie pożaru, jako obszar powiązany z awarią zostały wyłączone przez OVH. Z racji czasowego braku dostępu do danych w Strasburgu, odnieśliśmy się do kopii dostępnej w Warszawie. Proces jej implementacji nie mógł być natychmiastowy przez ilość danych do skopiowania.
Zespół stanął na wysokości zadania. Daliśmy z siebie wszystko, by przy pomocy naszych i zewnętrznych specjalistów w kilkanaście godzin postawić alternatywną infrastrukturę systemu w oparciu o posiadany backup.
Wpływ awarii na naszą firmę
Zdajemy sobie sprawę, że pożar serwerowni OVH wpłynął na Waszą pracę. My również ponieśliśmy poważne konsekwencje, zarówno wizerunkowe, jak i finansowe.
Nową infrastrukturę stawialiśmy jak najszybciej. Bez względu na koszty. Walczyliśmy o każdą godzinę, aby jak najprędzej przywrócić system i udostępnić go naszym użytkownikom. Ze względu na to, jak pilnie potrzebowaliśmy nowej, wydajnej infrastruktury, koszt jej uzyskania był bardzo duży. Skorzystaliśmy z AWS (Amazon Web Services) – renomowanego dostawcy, który jest w stanie dostarczyć serwery w kilka minut. Od razu postawiliśmy na najmocniejsze maszyny dostępne na rynku, tak aby mieć zapas mocy w momencie, gdy system nie będzie jeszcze zoptymalizowany.
W tym okresie cały zespół pracował bardzo intensywnie i z dużym poświęceniem, nawet całodobowo, włącznie z weekendami, zajmując się wyłącznie kwestią awarii. Jest to nasz wysiłek wewnętrzny, całkowicie naturalny w tej sytuacji.
Poniesione przez naszą firmę rzeczywiste wydatki związane z obsługą awarii to już teraz setki tysięcy złotych.
Powyższe informacje mają wyłącznie na celu pokazanie pełnego obrazu ostatnich wydarzeń. Awaria wpłynęła na wszystkich, także na BaseLinkera jako firmę, nie tylko jako system. W normalnym czasie skupialibyśmy się na rozwoju i nowych funkcjach systemu, lecz z powodu awarii wszelkie nasze zasoby ukierunkowane były na stabilizowanie sytuacji. W ekstremalnie krótkim czasie nasi specjaliści postawili od nowa infrastrukturę budowaną przez lata.
Zabezpieczenia systemu w przyszłości
Trafiliśmy na ekstremalnie rzadką sytuację, która w dzisiejszych czasach nie powinna mieć już miejsca – spłonęła część serwerowni OVH, europejskiego lidera wśród dostawców hostingu.
Choć zdarzenie miało charakter losowy, zdecydowaliśmy się na przygotowanie jeszcze silniejszej siatki zabezpieczeń. Podejmujemy kroki wykraczające daleko ponad standard tego typu zabezpieczeń. Nikt nie przygotuje się tak dobrze, jak ktoś, kto miał nieprzyjemność doświadczyć takiego zdarzenia.
Strategię zabezpieczeń prezentujemy w formie infografiki – zachęcamy do zapoznania się z nią.
>>> kliknij tutaj, by zobaczyć infografikę w nowym oknie <<<
Ponadto chcemy, aby każdy Użytkownik BaseLinkera – jeżeli tylko ma taką potrzebę – mógł w jeszcze łatwiejszy sposób tworzyć własne kopie bezpieczeństwa.
Opracowaliśmy nową funkcjonalność – Google Drive Backup. Jest to integracja z dyskiem Google Drive, która pozwala na wysyłanie codziennie w nocy na własny dysk informacji o zamówieniach, paragonach, fakturach itp.
Jeżeli dla części użytkowników nadal będzie to rozwiązanie niewystarczające, będzie można iść o krok dalej i ustawić synchronizowanie dysku Google ze swoim komputerem lub z dyskiem NAS. Dzięki temu możliwe będzie tworzenie codziennych kopii swoich danych nawet lokalnie: na swoim dysku na komputerze w biurze.
Dziękujemy za wsparcie
Drodzy Użytkownicy. Mamy nadzieję, że powyższe informacje dały szersze spojrzenie na tę skomplikowaną sytuację.
Bardzo nam przykro z powodu wszelkich niedogodności i utrudnień, które odczuliście w związku z przerwą w działaniu systemu.
Naszym celem jest zapewnienie najwyższej jakości usług, dlatego podejmujemy inwestycje w narzędzia, zabezpieczenia oraz własny rozwój, by dostarczyć jak najlepszy produkt i wsparcie w obsłudze ecommerce.
Jako cały zespół BaseLinker – serdecznie dziękujemy za wyrozumiałość, cierpliwość, dobre słowa oraz wszystkie przejawy wsparcia, które otrzymaliśmy od Was od samego początku awarii.