Minulý týden jsem zde na Lupě psal o výpadku základních registrů, ke kterému došlo v úterý 25. března v poledních hodinách. Přitom jsem se zaměřil zejména na dostupnost informací o samotném výpadku (jak se nejprve objevily na webu Ministerstva vnitra i samotné Správy základních registrů, aby odsud posléze zase zmizely), ocitoval odpověď od Správy základních registrů (na můj dotaz ohledně výpadku), a podivil se nad tím, že tak důležitý systém jako základní registry má klasický „single point of failure“, když s výpadkem jedné lokality (datového centra Státní tiskárny cenin) přestává fungovat a musí se několik hodin přesouvat do náhradní lokality (datového centra České pošty).
Co ale v článku nezaznělo, byl samotný důvod výpadku: co se stalo v přísně střeženém datovém centru Státní tiskárny cenin, že se základní registry musely „přesunout“ do své záložní lokality?
Důvod byl oznámen teprve včera kolem poledne, formou článku na webu Správy základních registrů.
Píše se v něm, že:
Dne 25. 3. 2014 v 11:42 hod. došlo v datovém centru Státní tiskárny cenin k požáru a následnému nouzovému odpojení elektrické energie od technologií základních registrů (ZR). Správa základních registrů (SZR) okamžitě provedla vyhodnocení tohoto provozního incidentu a v rámci obnovení služeb ZR byl vydán pokyn k přechodu zpracování služeb ZR do sekundárního datového centra.
Přesun zpracování byl proveden před časovým limitem 4 hodin, který je definován v havarijních plánech systému ZR a architektuře ZR. Tato operace proběhla bezproblémově zejména díky pravidelných testům havarijních procedur prováděných SZR.
Podle neoficiálních informací systém základních registrů skutečně nemá k dispozici tzv. HA (High Availability) cluster, v rámci kterého by existovala aktivní (horká) záloha, která by v případě výpadku jedné lokality okamžitě převzala poskytování služeb tak, aby celý systém fungoval bez jakéhokoli výpadku. Takovéto řešení by prý pro základní registry bývalo příliš drahé. Místo toho mají být v záložní lokalitě uchovávány zálohy jednotlivých databází, a průběžně zrcadleny jsou pouze požadavky na jednotlivé databázové operace. Proto v okamžiku výpadku hlavní lokality je třeba v záložní lokalitě nejprve vykonat tyto (zde dosud neprovedené) databázové operace, a tím dostat zdejší kopie databází do stejného stavu, v jakém byly databáze v hlavní lokalitě těsně před výpadkem – aby se dalo pokračovat v poskytování služeb celého systému. No a na to jsou ony 4 hodiny.
Článek na webu Správy základních registrů dále hovoří o tom, že:
K obnovení provozu došlo dne 25. 3. v 15:36 hod. I přes nouzové odpojení elektrické energie od technologií ZR nedošlo ke ztrátě zpracovávaných dat a ZR jsou schopny kontinuálně poskytovat referenční údaje dle požadavků oprávněných uživatelů.
K tomu si dovolím připomenout své vlastní testování, popisované v předchozím článku: ještě z 15:52 nebyly poskytovány výpisy ze základních registrů, vyžádané skrze datové schránky (skrze tzv. Formulářový agendový informační systém, FAIS). Mimochodem, tento konkrétní agendový informační systém (FAIS) měl 28. března další výpadek, když se na webu SZR objevila následující informace (nyní již opět nedostupná):
V současné době je částečně omezeno čerpání dat formulářovým agendovým informačním systémem. Na obnovení plné funkčnosti se pracuje.
Statistika provozu základních registrů
Na závěr si ještě řekněme, že správa základních registrů na svém webu nedávno zprovoznila statistiku počtu transakcí, uskutečněných základními registry. Ukazuje celkové počty transakcí za posledních 6 dnů, počítané vždy za jednotlivé hodiny. Viz následující obrázek.
Současně, viz tabulka v pravém horním rohu obrázku, ukazuje dostupnost základních registrů za posledních 24 hodin.
Dnes tedy již tento graf nepopisuje situaci ze dne 25.3.2014, kdy došlo k popisovanému výpadku. Starší graf, který období výpadku zahrnuje, lze ale ještě najít v Google cache, viz následující obrázek.
Jak je z obrázku vidět, v době kolem 16. hodiny dne 25.3.2014 už určitý objem transakcí proběhl, i když výrazně nižší než jindy. Takže základní registry nejspíše alespoň nějak fungovaly.
Pokud vás ale zarazí, tak jako mne, že na tomto grafu není vidět onen čtyřhodinový výpadek, pak vězte, že je to způsobeno vynecháním celých hodinových intervalů právě v inkriminované době. Hezky je to vidět na následujícím pohledu přímo do kódu celého grafu: po 11. hodině 25.3. následuje 16. hodina téhož dne, a pak hned 8. hodina ranní následujícího dne.