Názory k článku Facebook na šest hodin vyřadila chyba při aktualizaci, problémy měly i další služby

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

Podle hodnocení
Podle vláken
Nejnovější

5. 10. 2021 15:51

Gosoft

Mne spíše mírně "děsí", že pád jedné služby (DNS Facebooku) v podstatě DDoSoval další, zdánlivě nesouvísející, tj. DNS operátorů. Jestli jsem pochopil z reakce ISP správně, tak DNS prostě neunesly počet nezodpovězených dotazů. které se opakovaly a opakovaly. Je smutným faktem, že prakticky na každé stránce je nějaký objekt, který patří pod Facebook. Dobře nám tak.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 10. 2021 9:47

Uncaught ReferenceError:

nejednalo se o pád jedné služby, ale odstranění všech IP adres facebook z internetu (aspoň v západním světě, v Číně prý něco fungovalo). Jeho jeho IP adresách kromě toho běžěly i DNS servery.

V případě prostředí, které jsem viděl, byl problém následující, využívali bind jako reverzní DNS server. Jakmile skončila cache na záznamy z facebooku, resolver se zkoušel dotazovat autorativních NS, ty ale nebyly na síti dostupné, tak vrátil neplatnou odpověď (nelze podepsat přes DNSSEC a nelze ani cachovat) klientovi. Klientovi to nestačilo a začal posílat nové a nové dotazy. Bind pro každý takový dotaz se znovu a znovu pokoušel ptát.

Výsledkem bylo velice vysoké zatížení bind serverů. Smazání BGP mělo za následek, že se přestal provoz routovat na přímé linky a skončilo vše v trunku na zahraniční upstream, to vedlo k 100 % vytížení upstream linek. Samotná infrastrukturu se začala postupně rozpadat kvůli zatížení zahraničních linek a začala být jedna služba za druhou nedostupná, po deseti minutách již nebylo jasné, co bylo původní příčinou a propálilo se spousty času na řešení důsledků. Já byl k takovému systému zavolán až po 30 minutách, astronomický nárůst cache-miss na bindech a snapshot síťového provozu vedl k podezření na facebook, nebylo ale v tu chvíli jasné, jestli problém je lokální, globální, dočasný, trvalý, facebook nereagoval vůbec na jakoukoliv snahu o komunikaci.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 10. 2021 17:31

Filip Jirsák

Negativní DNS odpovědi (doména neexistuje) se kešují jen velmi krátkou dobu. Takže se klient ptá na neexistující doménu znovu mnohem dřív, než by se ptal na existující. A to i v případě Facebooku, kde je i platnost pozitivní odpovědi relativně nízká. Trochu tomu přispělo i to, že to lidé zkoušeli stále dokola, mnozí určitě zkoušeli i nějaké triky s vyprázdněním DNS cache. A další problém byl v tom, že DNS servery vůbec neodpovídaly. Za běžného provozu se DNS resolver zeptá, brzy dostane odpověď, tu si zapamatuje a je to vyřízeno. Tentokrát se ale zeptal, 10 sekund marně čekal na odpověď, pak poslal zpět (a krátce nakešoval) „neexistuje“. Nebo-li cimrmanovsky těch dotazů bylo víc, za to ale jejich vyřízení trvalo podstatně déle…
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 10. 2021 15:14

jinejmuf

Hmm, tak aktualizace? Jako bych to živě viděl:
16:50: "Tak se odhlásím a dodělám to zítra."
16:51: Systém Windows instaluje aktualizace. 0 % dokončeno. Prosím nevypínejte počítač.
22:51: Všechno pro Vás připravujeme. -- "No konečně :-D"

Každopádně nejvíc vtipné je, že jim prý nejely přístupové karty. Kritická vstupní infrastruktura na IP síti je zjevně jednoduché, ale také dost nespolehlivé řešení.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 10. 2021 18:21

Lukas1500

Tak to dopadá, když je "moc vajec v jednom košíku".
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 10. 2021 12:21

Martin Pištora

Sledujte to dál, je to poučné.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 10. 2021 10:15

Lukas1500

Vypadá to jako vážné riziko a jsem zvědav, jestli se podaří vymyslet nějaká opatření, jak tomu v budoucnu předejít. Já jsem jen BFU, takže pro mne z toho vyplývá nespoléhat na služby v Internetu, zejména když běží na vzdálených serverech. Založit na takové službě například přístupový systém do objektu pak považuji za lehkomyslnost, která zaslouží trest v podobě nedostupnosti. I kdyby k tomu došlo jen jednou za deset let.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 10. 2021 11:20

Uncaught ReferenceError:

Běžně to je odolné proti nedostupnosti služby v internetu, tady je komplikované, že ta služba způsobila vygenerování obrovského množstsví provozu, což se nečekalo.

řešení jsou (třeba deduplikovat dotazy na NS nebo mít rate limit pro jednotlivé NS), nikoho zatím asi nenapadlo, že nedostupnost nějaké velké služby povede k tomuhle (ono se to stalo v tomhle rozsahu poprvé).

Výhodu mají ti malí, kteří už udělali spousty chyb při konfiguraci, poučili se z nich a postupně si systém vyladili a mají ho pod kontrolou. U těch velkých (aspoň v našem prostředí) se tyhle výpadkové scénáře musí nadefinovat dopředu, protože pak jsou součástí akceptačních testů a je to poměrně neflexibilní.

Stejně tak se dobře (latence se zvýšila, ale nic extra) zachoval třeba Cloudflare nebo Google a jejich veřejné DNS resolvery, buď mají tak obrovský provoz, že jim facebook dělal relativně málo nebo byli schopní nasadit více HW zdrojů daleko rychleji.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 10. 2021 8:56

SB

Zajímavé, weby přece vytvářejí odborníci.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 10. 2021 11:13

vajsmen

Ještě že IT systém našich úředníků je naprosto heterogenní a tedy se v našem státním aparátu nic podobného nemuze přihodit. Alespon podle toho, co říkali Hamáček s Havlíčkem v debatě, tak pry mame tisice nepropojenych systémů nebo tak něco...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 10. 2021 11:41

bez přezdívky

A co třeba toto?
https://www.linkedin.com/feed/update/urn:li:activity:6851282677513953280/

Zasílat nově přidané názory e-mailem

Aktuality

Šéf ÚOHS potvrdil milionovou pokutu ministerstvu kvůli digitalizaci stavebního řízení

Registr zastupování načetl 15 milionů oprávnění z jiných rejstříků

Ať Google prodá prohlížeč Chrome, navrhuje v antimonopolním sporu americké ministerstvo

Komerční sdělení

INTERNET CZ: První certifikovaný registrátor domén .cz podle nových kritérií CZ.NIC

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Názory k článku Facebook na šest hodin vyřadila chyba při aktualizaci, problémy měly i další služby

Aktuality

Šéf ÚOHS potvrdil milionovou pokutu ministerstvu kvůli digitalizaci stavebního řízení

Registr zastupování načetl 15 milionů oprávnění z jiných rejstříků

Ať Google prodá prohlížeč Chrome, navrhuje v antimonopolním sporu americké ministerstvo

Komerční sdělení

INTERNET CZ: První certifikovaný registrátor domén .cz podle nových kritérií CZ.NIC

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Sledují vás přes HDMI? Útok využívá elektromagnetické záření

Vyzkoušeli jsme test, který ukazuje, co jsme zdědili po předcích

Počet OSVČ je opět rekordní. Nestojí za tím změny u dohod?

Přílišné uklízení škodí plicím stejně jako cigarety

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Stříteský: Obchodníci mají v zahraničí vyšší sankce a omezené slevy

Vyhněte se chybám a prodlužte životnost USB flash disku

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Nejlepší dobou, kdy začít péct perníčky, je měsíc před Vánoci

Oznámení o osvobozených příjmech: shrnutí povinností

Biolog zasvětil život lanýžům. Poznejte ho i s jeho psí parťačkou

Lumbální punkce sice vypadá děsivě, ale nebolí

Policie zatkla provozovatele tržiště pro DDoS útoky

Celý příští týden se můžete nechat anonymně otestovat na HIV

Svařák bez alkoholu je skvělá varianta pro těhotné či abstinenty

Lékaři zdarma a bez objednání změří kapacitu plic

USA zastavují dodávky pokročilých AI čipů TSMC do Číny

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Bolest prsu nemusí hned značit vážné onemocnění

Pokuty za spam zřejmě vzrostou a můžou být likvidační