Grid computing ve firemním prostředí

14. 9. 2006
Doba čtení: 9 minut

Sdílet

Autor: 29
Grid computing se za posledních několik let postupně vymaňuje ze zajetí ryze vědecko-výzkumného prostředí, neboť nabízí mnoho užitečného i pro potřeby průmyslového sektoru. V našich končinách na tom ale s podnikovým využitím gridu ještě moc daleko nejsme.

Podle v pořadí již čtvrtého průzkumu Oracle Grid Index [PDF, 501 kB] (z června 2006, opakovaného každých šest měsíců) je grid vedle SOA (Service-Oriented Architecture) jednou z nejzajímavějších a nejdůležitějších oblastí IT současnosti. Podle Oracle je grid již ve stádiu plně rozvinuté, nikoli teprve nastupující technologie, vhodné pro podnikatelské účely.

Global grid trends index Oracle

Podle výsledků průzkumu shrnutého globálně do následujícího obrázku jsou zájem, znalosti i připravenost pro grid computing na slušné úrovni. Nicméně nasazení gridu v praxi je stále jen v počátcích, i když již 70 procent dotázaných organizací grid v nějaké oblasti používá (na konci roku 2005 tři čtvrtiny dotázaných podniků v oblasti gridu nic nepodnikaly, zatímco letos se tento podíl snížil na 13 procent – téměř polovina organizací grid středně využívá). Evropské organizace jsou mírně v závěsu za USA, vyjma severských zemí a Německa, kde se grid computing slibně rozjel. Kupodivu asijští tygři v jiných oblastech jsou podle Oracle Grid Index na tom stejně mizerně jako východní Evropa (Čína, Korea) a Japonsko je dokonce ještě o chlup víc vzadu.

Grid (computing) si plným právem zaslouží naši pozornost. A protože se na Lupě na toto téma často nehovoří (naposledy v roce 2001!), je nejvyšší čas prostřednictvím alespoň několika příspěvků nastínit jeho současnost a možnosti v budoucnu.

Historické kořeny grid computing

Soustava (grid) výpočetních systémů nemá moc dlouhou historii a je výsledkem vývoje distribuovaných výpočetních systémů. Původní superpočítače značné velikosti rozdělovaly zátěž mezi několik procesorů. Po nich přišly klastry, které již využívaly dostupných počítačových systémů (PC typicky s Linuxem) a nabídly značné kapacity pro paralelní zpracování dat, byť jen na malém prostoru oddělení či kampusu. Nasazení klastrů splývá s počátky gridu, protože jejich existence umožnila, aby si uživatelé sami stavěli velké výpočetní systémy.

Ikonka - Kristalova Lupa 2006
Víte o zajímavé české službě či projektu a rádi byste o něm dali vědět ostatním? Zajímá vás, co považují za nejlepší na českém Internetu odborníci i běžní uživatelé? Pak neváhejte a nominujte své favority v anketě Křisťálová Lupa 2006! Až do 22. září 2006 můžete ovlivnit, ze kterých projektů se bude vybírat vítěz pro tento rok. Dejte vědět provozovatelům služeb, co si o jejich nabídce myslíte a ovlivněte tak český Internet!

První zárodky grid computing se datují až od druhé poloviny 90. let (průkopnický gridový systém s názvem Globus právě oslavil desáté narozeniny), kdy začala vznikat tato alternativa k superpočítačovým systémům pro zvládnutí velice náročných výpočetních úloh na základě nepředstavitelných objemů dat. Nápad to byl celkem logický: s velmi rychlými sítěmi a s využitím vhodného softwaru propojit distribuované výzkumné skupiny s jejich výpočetními a úložnými prostředky do jednotného systému schopného zvládnout úkol přesahující možnosti každého jednotlivého výzkumného centra.

Taková infrastruktura je na rozdíl od svých předchůdců (superpočítačů) a současníků (klastrů) specifická tím, že ji vlastní, spravuje a využívá větší počet organizací. Už se nejedná o monolitickou strukturu z hlediska hardwaru a softwaru, ale o infrastrukturu sestávající z různých typů operačních systémů i síťových technologií. Takže grid ve své podstatě může zahrnovat nejrůznější typy systémů: od stolních počítačů až po superpočítače a klastry, úložná zařízení a databáze, senzory i vědecké přístroje.

Název grid (ve významu mřížka) jakoby vypovídá o topologickém propojení jednotlivých výpočetních systémů, ale je za ním ještě něco víc. Podobně jako elektrická distribuční síť (označovaná odedávna právě jako grid) je dnes dostupná téměř každému kdekoli na světě, i moderní komunikační grid by měl být dostupný všude, a tak zpřístupnit výpočetní kapacity skutečně globální vědecké komunitě. A možná nejen jí, protože každý uživatel v ideálním světě by mohl svůj počítač prostě k takové síti připojit a získat okamžitě přístup k supervýpočetním možnostem za dostupnou cenu.

Takhle daleko ale grid za těch pár let – byť překotného – vývoje ještě tak docela není. Zatím vyrostly gridy spíše specializované, sdružující úzce zaměřené výzkumníky dané vědecké oblasti (výzkum genomu, monitorování zemětřesení). Podobně je tomu s vnitřní heterogenitou, která je pro budoucnost gridu nezbytně nutně zvládnutelná, ale dosud se spíše jednalo o homogenní struktury. Zárodky obecných gridů, a to nejen ve výzkumné sféře, tu ale již jsou (např. Sun Grid Compute Utility) a umožňují za nízký poplatek přístup k gridovým výpočetním prostředkům komukoliv, kdo má připojení na Internet.

Co je grid computing

Grid computing zatím nemá jednotnou definici ani obecně přijatou specifikaci (normu), proto není divu, že znamená pro různé lidi různé věci (kdo se chce seznámit s nejrůznějšími přístupy k věci, může začít u Wikipedie, nebo lépe v Grid Café). Dodavatelé tzv. grid technologií za grid rádi „vydávají“ takový koncept, kdy se uživatelé (jejich zařízení) mohou připojit do datového centra výrobce a za využití prostředků zaplatit (computing on demand). To ale nutně nevyžaduje grid technologii jako takovou. Podobně zavádějící nabídkou je řešení v podobě cluster computing, nesprávně vydávané za grid computing.

Na půli cesty ke gridu už byl známý projekt SETI@home, který prostřednictvím stažení spořiče obrazovky umožňuje využití počítačů uživatelů připojených na Internet k vyhledávání známek extraterestrických aktivit. Tento projekt zaujal na pět milionů uživatelů, ale chybí mu jeden ze základních principů gridu: management dostupných prostředků, namísto pouhého „spolehnutí se“ na ad hoc dostupné prostředky pro peer-to-peer nezabezpečenou komunikaci (viz obrázek).

SETI

Koncept využití volných kapacit PC pro SETI@home

Mnozí odborníci SETI@home za grid ale považují, ovšem specifický svým principem peer-to-peer komunikace, kde se spolehlivost nahrazuje nadbytečností (stejný výpočet se provede několikrát na různých počítačích, a když se výsledky shodují, jsou patrně dobře). Takový přístup je vhodný pro určitý druh aplikací, zpravidla založených na složitém hledání, kde je ověření správnosti nalezeného výsledku snadné (např. hledání klíče pro zašifrovaný text). Od moderního plnohodnotného gridu, který vyžaduje komplexní konfiguraci a middleware, podobně jako spolehlivý a bezpečný datový přenos, jej dělí právě možnost spolehnout se na infrastrukturu v daný okamžik potřeby.

Grid v pravém slova smyslu je dnes definován jako infrastruktura umožňující sdílet kapacity a funkce, integrovat služby a prostředky v rámci organizací a mezi nimi, umožňující aktivní spolupráci v distribuovaném multiorganizačním prostředí. Mezi prostředky, s nimiž grid nakládá, patří výpočetní kapacity (uzly, procesory), úložné prostředky (paměť, archivy, úložné sítě), data (charakterizovaná umístěním a dostupností), sítě (charakterizované šířkou pásma a zpožděním), software a služby.

Pojem grid zavedli v roce 1998 pánové Carl Kesselman a Ian Foster v knize The Grid: Blueprint for a New Computing Infrastructure. O možných překladech slova grid v tomto významu do češtiny (spíše marných pokusech) se lze poučit na stránkách CESNETu.

Na grid se lze sice poněkud omezeně dívat jako na přirozenou evoluci výpočetních a komunikačních možností, ale nelze opomenout, že nabízí v zásadě velice revoluční způsob interakce v moderní informační infrastruktuře: pro podnikání i pro vědecký výzkum a vývoj.

LHC

Jedním z předních příkladů využití grid computing je výzkum elementárních částic, a to v souvislosti se zpracováním dat poskytovaných urychlovači částic – LHC (Large Hadron Collider) v Ženevě, jehož oficiální spuštění se plánuje na příští rok. LHC má mnoho nej-, především se totiž jedná o největší zařízení (vědecký přístroj) na světě: ve stometrové hloubce pod povrchem Země je zbudován kruhový tunel o délce 27 kilometrů, do něhož se v protisměru budou pouštět dva paprsky protonů. Tyto toky se rychlostí blížící se rychlosti světla čelně srazí a výsledkem bude sprška patrně naprosto neznámých subatomických částic. Od nich si vědci slibují možnost zjistit, jak asi vypadaly zárodky vesmíru. Kolize částic se budou odehrávat na čtyřech místech urychlovače, kde jsou umístěny potřebné detektory. A to nebudou žádní drobečkové: největší z detektorů (příhodně nazvaný ATLAS) vyplňuje podzemní kavernu o výšce šesti pater!

Srážky to tedy nebudou zrovna ledajaké, a to nejen pro kvantové fyziky, ale i síťaře a pracovníky s daty, protože těch tato aktivita vygeneruje naprosto nesrovnatelné množství: v každé kolizi detektor zachytí stopy stovek částic, což bude znamenat několik MB dat. Jenže takových kolizí se detekuje každou sekundu miliarda, takže ve výsledku (a ještě po důkladné filtraci až na jednu z milionu srážek) to znamená 1,5 GB každou sekundu, po několik let. Celkem se hovoří o 15 petabytech (PB=1015 B, tj. biliarda bytů) dat ročně (v průměru objem, který by zaplnil šest běžných DVD každou minutu). Takový objem dat ke zpracování nelze svěřit žádnému superpočítači na světě, protože by tuto úlohu prostě nezvládl, proto bylo od počátku budování urychlovače věnováno značné úsilí vytvoření infrastruktury pro zpracování těchto dat.

LHC Computing Grid

Proto měli pracovníci CERNu, který bude LHC provozovat, kromě vlastní gigantické stavby ještě jeden zásadní úkol: vybudovat infrastrukturu, která by vyhověla tomuto náporu jak svými úložnými, tak výpočetními kapacitami.

Jednou z prvních aktivit byl projekt EU Datagrid (Research and Technological Development for an International Data Grid) probíhající v letech 2001–2004, jehož cílem bylo vytvoření základní gridové infrastruktury. Na řešení tohoto projektu se aktivně podílela i Česká republika zastoupená sdružením CESNET, a jeho výsledky jsou základem pro řadu současných aktivit (LCG, EGEE – o EGEE bude řeč v příštím díle seriálu).

Základem je LHC Computing Grid (LCG): pro tento případ byly vybrány na dvě stovky výzkumných pracovišť skutečně na celém světě, která jsou propojena vysokorychlostními komunikačními sítěmi a plně vybavena potřebnými výpočetními systémy tak, aby mohla pracovat jako jediný systém pro paralelní zpracování informací. Nabízené parametry lze demonstrovat na výsledcích komplexního testování LCG, které vloni úspěšně ověřilo přenos dat z LHC do sedmi zemí Evropy a do USA o objemu 600 MB každou sekundu po dobu deseti dnů.

Tento globální grid, na němž se pracuje od roku 2002, by se neměl v budoucnu omezovat pouze na úkoly spojené s výzkumem kvantové mechaniky, ale měl by být díky svým kvalitám a kapacitám schopen své služby nabídnout i do jiných sfér vědeckého a technického či průmyslového bádání.

Z hlediska dalších síťařských výzev stojí za to připomenout, že LHC si také vyžádal vybudování netriviální „lokální“ optické sítě, která má umožnit komunikaci mezi povrchovými budovami, v rámci tunelu i mezi zainteresovanými přístroji. Tunel má osm sekcí a s povrchem jej spojuje několik šachet. Kabeláž si vyžádala zafoukávání kabelů na vzdálenost 3,4 km.

Jedním z nezanedbatelných požadavků optické sítě pro LHC je odolnost optických kabelů vůči extrémním hodnotám radiace, které občas v kruhu vzniknou. Paprsek částic je běžně držen uvnitř urychlovače magnety, na některých místech může úroveň radiace způsobit útlum (např. v kolimátoru a oblastech čištění paprsku). Tam, kde k tomuto problému dojde, malé platformy kabelů zjednoduší odstranění zničených kabelů a zařídí jejich nahrazení zafoukáním nových.

MM 25 baliček

Příště se budeme věnovat mezinárodnímu projektu EGEE a možnostem jeho gridu, který je otevřen skutečně všem.


S aktuálními a upřesňujícími informacemi laskavě přispěli k textu tohoto článku čeští odborníci na grid computing: Doc. RNDr. Luděk Matyska, CSc. a Mgr. Daniel Kouřil z Masarykovy Univerzity v Brně, kteří se aktivně podílejí na gridových aktivitách CESNETu a souvisejících projektech EU.

Zajímá vás grid computing?

Autor článku

Ing. Rita Pužmanová, CSc., MBA je nezávislá síťová specialistka. Okusila český, španělský i kanadský vzdělávací systém. Vedla kurzy v 7 zemích a ve 4 jazycích, školila on-line pro UCLA.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).