Dovolte mi malou úvahu člověka, který se datovými centry zabývá více jak 15 let.
1. To, že pánové v ČRa svou práci dělají tak jak dělají a za jakých podmínek provozují a staví datové centra, to je jen a jen odrazem výše investice (CAPEXu) a následně i provozních nákladů (OPEXu), který jim management přidělí. A stejně to funguje ve všech firmách, které provozují datová centra. Tzn. když majitel/akcionář/management na výstavbu a provoz DC dá málo peněz, tak se zákonitě musí hledat cesty, jak to DC postavit za málo peněz a musí se šetřit na technice. šetřit na technice se rovná výpadky. A stejně je to i s OPEX penězi. Když si nemůžete dovolit kvalitní lidi, kvalitní profylaxe technologie, kvalitní dohledový systém, kvalitní školení personálu, kvalitní podporu dohledu DC atd., tak věřte, že je to nejlepší cesta k co nejbližšímu výpadku/výpadkům DC.
2. Znám některé lidi z DC ČRa, kde včera k výpadku došlo. Mnozí z nich jsou neskuteční srdcaři, kteří by udělali pro bezproblémový provoz svého DC cokoli. Ale když chybí podpora, tak se můžete snažit jak chcete. Tímto bych rád kluky z ČRa podpořil v jejich snažení a držím jim palce ať následky výpadku jsou co nejmenší.
3. To, že DC mají výpadky, to je přeci běžné a nejde je eliminovat. Neexistuje systém jak technický, tak lidský, tak procesní, který by dokázal 100% eliminovat výpadek. A proč. Protože DC je technická záležitost a technika dříve nebo později zkolabuje - je to jen funkcí času než se to poláme. Jediné co můžete udělat, tak ten čas k výpadku prodloužit kvalitním návrhem, výstavbou a provozem DC viz. bod 1.
3. Všechna datová centra v ČR, ale i mimo ČR měla nebo budou mít výpadek/y. Tomu se nelze vyhnout.
4. Ještě si dovolím jeden postřeh. A to na klienty DC. Čím méně za DC klient platí, tím dříve vás postihne výpadek. Když platíte odpovídající cenu, ve které si platíte a máte garanci, že poskytovatel DC provádí profylaxe, školení, kontroly, testy, úpravy, regulace technologie ...., tak se dá výpadek oddálit, ale ne zcela eliminovat.
Pokud by někdo z čtenářů měl jiný názor, tak se o těchto věcech rád pobavím osobně. Přijďte za námi do DC a my vám ukážeme jak to funguje a proč to fungovat nemusí.
Přeji hezký a klidný zbytek dne
Radek Majer
Pod to se můžeme podepsat!
I když do toho lidé dávají vše, základem datových center je pořád jenom technika. Žádný seriózní poskytovatel vám nikdy nedá garanci 100 %. Může navrhnout sofistikované Disaster Recovery řešení pro co největší eliminaci následků případných škod, ale připravte se, že nedostanete nejnovější BMW za cenu ojeté škodovky.
Držíme CRA palce při vyšetřování příčiny. Ať vše probíhá pokud možno hladce.
Za Mastery
Michaela Rabasová
Celé toto slohové cvičení bohužel nevysvětluje skutečnou příčinu výpadku na obou napájecích větvích v jeden okamžik. Příliš jej nevysvětluje ani oficiální vyjádření.
Dne 12.8. 2019 došlo v čase 17:34-18:05 k výpadku napájení IT technologií na jednom ze sálů datového centra DC Tower.
Příčinou výpadku napájení IT technologií bylo současné selhání automatů pro přepínání mezi zálohovanou a nezálohovanou sítí pro daný sál v NN rozvodně. V důsledku tohoto výpadku došlo k přechodu na provoz z UPS. Ihned po identifikaci výpadku došlo k manuálnímu restartu obou problematických automatů a obnově napájení.
Zpožděná identifikace problému byla způsobena probíhajícími pracemi na upgrade monitorovacích systémů, tyto byly dočasně přerušeny a pracovníci datového centra nyní spolu s dodavateli inkriminovaných automatů zjišťují příčiny současného selhání a možnosti prevence opakování takovéhoto incidentu. V rámci revize dojde ke komplexní kontrole všech dalších prvků napájení v datovém centru.
Cely objekt ma s ohledem na svou strategickou ulohu tri privody VN (22kV). Jejich zapojeni v NN casti jde mj. odvodit z zde publikovanych obrazku.
Kromě ČRa, které používáme teď, jsme dříve používali i Nagano, TM i menší DC na Želivského a taky servisujeme zařízení v privátních DC. A mohu říci jen tolik, že napájení je neuralgický bod všech DC. Typicky při cvičení všechno v pořádku, ale když vnější napájení vypadne samo neplánovaně, tak je to 1:5, že půjde dolů i velká část DC. Ty lepší DC se od těch špatných odlišují jen tím, že tahle lapálie trvá 15 minut, a že se to jako zákazník hned dozvíte (někdy i s omluvami). Tady to bohužel do nahození všech služeb trvalo bratru hodiny 2 a žádný mail jsem nezaregistroval.
Hezký den Jirko,
mezi lidmi co navrhují, staví a provozují DC existuje jedna poučka, která říká, že pokud ukážete prstem do jakéhokoli jednoho bodu "jednopoláku" (přehledové schéma zapojení elektrických rozvodů) a tento bod (odpojovač, přepínač, jistič, kabel atd...) vyřadíte v reálu z činnosti, tak bude vše na straně IT (čili zákaznické zařízení) dále fungovat.
Z důvodu primárně na straně nízkých CAPEX investic majitelů DC je v ČR jen velmi málo DC, které by tímto testem prošla bez ztráty kytičky. Tzn. že skoro každé DC v ČR má SPOF (single-point-of-failure). Mnoho z těchto DC situaci řeší dalšími nesystémovými zapojeními elektrických rozvodů, ale tím bohužel ještě zvyšují riziko a četnost dalších výpadků. Těch DC, které jsou opravdu postavena a provozována s malou mírou výpadku je velmi málo.
Lidé, kteří problematice návrhu, výstavby a provozu DC opravdu rozumí, jsou schopni provést výpadek jakéhokoli DC už jen eliminací/odpojením dvou prvků současně. A to se nemusí jednat o prvky elektrického rozvodu. DC lze totiž položit mnoha běžně dostupnými způsoby a ani jeden nemusí být přes elektriku.
Radek Majer
Možná máte pravdu, ale já nemám na mysli sabotáže, ale většinou prostou situaci "přestal jít proud z elektrárny". Příčiny těch výpadků se k nám většinou ani nedonesly, nebo se dalo pochybovat o jejich pravdivosti (případně tu je otázka zda je provozovatel DC skutečně zná, a to netrvám na Toyota-5-Why úrovni zkoumání...).