facebook LinkedIN LinkedIN - follow
IT SYSTEMS 10/2021 , IT Security

Jak mohl Facebook zmizet z Internetu a co to znamená pro běžné firmy?

Michal Hebeda


Všichni máme v živé paměti výpadek Facebooku a s ním spojených služeb Whatsapp a Instagram na začátku října. Přímé ztráty několikahodinového výpadku se odhadují na několik miliard dolarů. Hodně z nás si jistě kladlo otázku, jak je to možné, že tyto jinak robustní služby mohou přestat fungovat takovýmto způsobem? A co skutečnost, že najednou přestane být dostupná takto robustní webová aplikace, znamená pro běžné firmy? Přinášíme Vám pohled na celou věc od inženýrů ze společnosti Cloudflare, kteří si v první chvíli mysleli, že přestal fungovat jejich DNS resolver 1.1.1.1.


4. října v 15:51 UTC inženýři otevřeli interní incident nazvaný „Facebook DNS lookup returning SERVFAIL“ (SERVFAIL je odpověď DNS resolveru, pokud nemůže kontaktovat zodpovědné DNS servery a získat odpověď). Ještě než stihli publikovat status, že se něco děje s jejich resolverem, všimli si, že jde o výrazně větší problém.

Sociální média ihned reportovala to, co inženýři z Cloudlflare vzápětí také potvrdili: Facebook a s ním spojené služby WhatApp a Instagram jsou kompletně nedostupné. Vypadalo to, jako by někdo doslova „vytrhal kabely“ z jejich data center. Problém nebyl způsobený DNS, ale selhávající služba DNS byla prvním příznakem většího výpadku Facebooku.

Jak funguje BGP

Dovolte mi malou vsuvku objasňující, jak funguje BGP, což je Border Gateway Protocol. Je to mechanismus pro výměnu směrovacích informací mezi autonomními systémy (AS) v Internetu. Velké směrovače, které zajišťují fungování internetu, mají obrovské, neustále aktualizované seznamy možných tras, které lze použít k doručení každého síťového paketu do jeho konečného cíle. Bez protokolu BGP by internetové směrovače nevěděly, co mají dělat, a internet by nefungoval.

Internet je doslova síť sítí a je spojen protokolem BGP. Protokol BGP umožňuje jedné síti (řekněme Facebooku) inzerovat svou přítomnost ostatním sítím, které tvoří Internet. V případě, že daná síť svou přítomnost neinzeruje, poskytovatelé internetových služeb a ostatní sítě nemohou síť najít, a proto je nedostupná.

Jak nastal výpadek?

V 15:58 UTC bylo zpozorováno, že Facebook přestal oznamovat trasy ke svým prefixům DNS. To znamenalo, že přinejmenším servery DNS společnosti Facebook byly nedostupné. Z tohoto důvodu nemohl resolver DNS 1.1.1.1 společnosti Cloudflare nadále odpovídat na dotazy, které se ptaly na IP adresu facebook.com. Ostatní IP adresy Facebooku mezitím zůstaly směrované, ale nebyly nijak zvlášť užitečné, protože bez DNS byly Facebook a související služby fakticky nedostupné.

Cloudflare díky velikosti své sítě a faktu, že přes ni proudí významná část internetového provozu, má velký přehled o tom, jak je internet propojen a kudy má provoz proudit z a do všech míst planety. Mimo jiné jsou sledovány všechny aktualizace a oznámení BGP. Zpráva BGP UPDATE informuje směrovač o všech změnách, které byly provedeny v inzerci prefixu nebo stažení celého prefixu. Po zjištění problémů byla provedena kontrola časových řad BGP. Obvykle je tento graf celkem klidný, jelikož Facebook neprovádí příliš mnoho změn z minuty na minutu. Okolo 15:40 byla zaznamenána špička v množství změnových požadavků a v tu chvíli začaly potíže.

Obr. 1: Na grafu je okolo 15:40 zřejmá špička v množství změnových požadavků BGP konfigurace Facebooku. V tu chvíli začaly potíže.
Obr. 1: Na grafu je okolo 15:40 zřejmá špička v množství změnových požadavků BGP konfigurace Facebooku. V tu chvíli začaly potíže.

Pokud tento pohled rozdělíme podle oznámení a stažení tras, získáme ještě lepší představu o tom, co se stalo. Trasy byly staženy, servery DNS společnosti Facebook byly offline. Tímto stažením se Facebook a jeho stránky fakticky odpojily od Internetu a v přímém důsledku přestaly DNS resolvery po celém světě překládat názvy jejich domén.

Vzhledem k tomu, že společnost Facebook přestala oznamovat své trasy prefixů DNS prostřednictvím protokolu BGP, neměly DNS resolvery Cloudflare ani resolvery ostatních uživatelů možnost připojit se k jejich nameserverům. V důsledku toho začaly 1.1.1.1, 8.8.8.8 a další hlavní veřejné DNS resolvery vydávat (a ukládat do mezipaměti) odpovědi SERVFAIL.

Dopad na další služby

To ale není všechno. Nyní nastupuje lidské chování a aplikační logika a způsobuje další exponenciální efekt. Následuje totiž tsunami dalšího provozu DNS.

Jedním z důvodů je to, že aplikace nechtějí přijmout chybu jako odpověď a začnou požadavky opakovat, někdy i agresivně, druhým důvodem pak to, že koncoví uživatelé také nechtějí přijmout chybu jako odpověď a začnou znovu načítat stránky nebo ukončovat a znovu spouštět své aplikace, někdy také agresivně. Na obrázku 2 je vidět nárůst provozu (v počtu požadavků), který byl zaznamenán u služby 1.1.1.1.

Obr. 2: Nedostupnost vedla k tsunami dalšího provozu DNS kvůli opakovaným požadavkům aplikací i uživatelů.
Obr. 2: Nedostupnost vedla k tsunami dalšího provozu DNS kvůli opakovaným požadavkům aplikací i uživatelů.

Lidé se obvykle nechtějí spokojit s tím, že něco nefunguje, ale zkouší různé alternativy. Také hledají informace o výpadcích, chtějí o problému diskutovat s ostatními. Cloudflare zaznamenal výrazně zvýšený počet DNS dotazů na Twitter, Signal a další platformy pro zasílání zpráv a sociální média.

Vyřešeno?

Okolo 21:00 UTC byla zaznamenána obnovená BGP aktivita ze sítě společnosti Facebook, vrchol v počtu změnových požadavků byl v 21:17 UTC. Následně byla obnovena možnost resolvovat adresy domén Facebooku a ten byl tedy znovu připojen k internetu. Je pochopitelné, že ještě nějakou dobu vždy trvá, než se služby stabilizují a jsou dostupné v obvyklém měřítku.

Celý výpadek tedy trval přibližně pět a půl hodiny a měl by pro nás být připomínkou, že Internet je velmi komplexní a navzájem závislý systém vzájemně propojených systémů a protokolů. Připomínkou toho, že standardizace a spolupráce mezi subjekty jsou ústředním prvkem fungování Internetu pro téměř pět miliard aktivních uživatelů celosvětově. A nakonec také připomenutím toho, že když může zkolabovat Facebook, může snadno dojít k výpadku i běžných firemních webových aplikací, typicky e-shopů, a způsobit podobně závažné ztráty.

Výpadky firemních webů

Výpadky webových aplikací a portálů nejsou jen doménou nadnárodních korporací, ale mohou se týkat i menších firem. Nejmenovaná obchodní společnost ze Slovenska čelila na jaře tohoto roku masivnímu DDoS útoku, jenž dosahoval řádově jednotek Gbps a zcela paralyzoval webové rozhraní firemního e-shopu. Pochopitelně to byl pro danou společnost citelný problém, neboť přes e-shop realizuje cca 90 % svého obratu.

Nepomohl ani správně nastavený firewall, ani základní ochrana na straně providera, neboť masivnost útoku byla taková, že zcela zahltil příchozí internetové linky. Toto je typický scénář, který může pomoci vyřešit právě Cloudflare – veškerý provoz je přesměrován přes robustní síť 250 datacenter ve více než 100 zemích světa. Tato síť datacenter funguje jako „pračka“ internetového provozu se schopností absorbovat až 100 Tbps, což je řádově více, než dosud největší zaznamenané útoky.

Michal Hebeda Michal Hebeda
Autor článku je Sales Engineer pro řešení Cloudflare ve společnosti ZEBRA SYSTEMS.
Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.

Inzerce

Jak si vedou české firmy v kybernetické bezpečnosti

Praktické zkušenosti z oblasti etického hackingu a penetračního testování

Komplexní zabezpečení pod­ni­ko­vé infrastruktury, počínaje výpočetními systémy přes úložná řešení, až po komunikační linky není jednoduchá záležitost. S větší či menší úspěšností se o to snaží každá organizace.