Potíže mají podle dostupných informací patrně dvě různé příčiny: jednou byl výpadek cloudových služeb firmy Microsoft a druhou nejspíš chyba v softwarovém updatu kyberbezpečnostní platformy společnosti CrowdStrike.
Ona to bude jedna příčina - cloudové služby Microsoft to zřejmě sestřelilo úplně stejně, jako ostatní (protože běží na MS Windows serverech...?).
Zrovna tohle může být docela dobře možné - druhé úterý v měsíci vyjdou záplaty, o den později se to hodí na servery a v noci se udělá restart...
My máme ve firmě týdenní rytmus, takže třetí úterý to jde na testovací prostředí a čtvrté úterý na servery (postupně, podle dní v týdnu). Ale vemte jed na to, že v noci ze čtvrtého úterka na středu se restartuje skoro čtvrtina serverů...
seniorskeptik: Škoda, že jste ten komentář napsal zrovna pod zprávičku o problémech po celém světě způsobených výpadkem lokálních počítačů. Shodou náhod byl stejný den i výpadek části cloudových řešení pro některé uživatele, ale ten byl za chvíli vyřešen a v tuto chvíli už nikoho nezajímá, protože ten výpadek lokálních (ne-cloudových) systémů byl daleko závažnější, delší a měl dopad na daleko víc lidí.
Ale je fajn, že umíte opakovat jednoduché rýmovačky. Jestli ovládáte vyměšování a zvládnete si zavázat tkaničky u bot, už by vás vzali do školky.
Jestli to chapu dobre, tak problem souvisi s bootovanim a aby se projevil, tak je treba restart pocitace, casova okna pro aktualizaci a nasledny restart budou zrejme v kazde casti sveta jina, takze je klidne mozne, ze se tento problem projevyje pouze v USA a ne v Evrope nebo Asii i kdyz se pouziva stejna technologie. .
Přesně to jsem měl na mysli: nejspíš tu kyberbezpečnostní platformu společnosti CrowdStrike používá i MS ve svém prostředí.
A na to jste přišel jak?
Ona by to byla sec-sakra velká náhoda, kdyby se objevily dvě nezávislé, takhle velké, chyby ve stejný okamžik...
Ve stejný okamžik? To máte odkud? Ve stejný den, začátkem pracovního dne, ale s tím okamžikem bych byl velmi opatrný.
Navíc v případě Azure se to projevuje hlavně u amerických uživatelů – že by to Microsoft používal ve svém prostředí v USA, ale ne v Evropě a Asii?
Vyloučit se to nedá, ale já považuju za pravděpodobnější, že jsou to dvě nezávislé chyby. Nebo ta chyba CrowdStrike mohla způsobit větší zátěž na Azure (třeba kvůli přepínání na záložní řešení ve firmách postižených CrowdStrike), Azure v USA mohlo být z nějakého nezávislého důvodu zrovna oslabené a ta větší zátěž ho dorazila.
Možná, že příčina je společná, ale protože to nasazují A/B postupně, tak jim to sejmulo jen Central US. Ale možná vůbec a nesouvisí to. Bohužel na Central US mají hodně věcí pro celou planetu, jako třeba DevOps. Ale červený sloupeček byl jen na Central US.
Podrobnosti: https://azure.status.microsoft/en-us/status/history/
"We determined that a backend cluster management workflow deployed a configuration change causing backend access to be blocked between a subset of Azure Storage clusters and compute resources in the Central US region. This resulted in the compute resources automatically restarting when connectivity was lost to virtual disks hosted on impacted storage resources."
19. 7. 2024, 17:12 editováno autorem komentáře