Vysoká výkonnost gridu vyžaduje škálovatelnost systému, odolnost vůči problémům a adaptabilitu. Je zřejmé, že heterogenita jak prostředků výpočetních, tak síťových tyto požadavky činí ještě složitější. Zvládnout tuto situaci má na starosti middleware.
Middleware
Middleware je vedle přenosových cest a úložných zařízení jedna z nejdůležitějších součástí gridu. Je totiž zodpovědný za přístup aplikací ke kapacitám gridu, tudíž za management veškerých prostředků gridu (navíc v různých administrativních doménách), a to v reálném čase. Musí mít v kterýkoli okamžik přehled o momentálně dostupných výpočetních a úložných kapacitách, podobně jako databázích dat, aby mohl efektivně uspokojit potřebu uživatele, který potřebuje zpracovat svůj úkol. Proto ke gridu nedílně patří nejen monitorování průběhu zadaných úloh, ale průběžné sledování všech prostředků (s vysíláním zpráv o událostech).
Přitom je třeba brát v úvahu, že kvůli distribuovanosti infrastruktury nelze 100% spoléhat na jednotlivé prostředky po celou dobu průběhu úlohy, takže vyvstává problém odolnosti vůči výpadkům a chybám. Ale nejen to, v průběhu času může dojít k saturaci daného funkčního prostředku, takže jeho kapacity již nemusí být pro další úkol dostupné.
V takto komplexním dynamickém heterogenním prostředí je nezbytné, aby infrastruktura byla schopna se autonomně vypořádat s případnými problémy a výpadky a pokračovat v zamýšlené úloze. Adaptabilita je jednou ze základních vlastností gridu, a obstarává ji právě middleware: musí zachovávat stabilitu (tj. zotavení se z problémů bez nutnosti reinicializace), což je neustálý proces regulace a optimalizace vykonávaný v uzavřené smyčce.
Middleware je přesně tím, co jeho označení napovídá: mezilehlou softwarovou úrovní mezi vlastním gridem (infrastrukturou) a uživatelskými aplikacemi. Pro uživatele se pak může celý komplexní grid jevit bez nepotřebných podrobností jako jeden virtuální stroj: na své požadavky dostává odezvy zcela transparentně.
Middleware gLite v EGEE gridu
Middleware je hnacím motorem každého gridu, ale dnes není potřeba jej vyvíjet zcela nově, jak ukazuje příklad EGEE (viz článek Připojte se ke gridu EGEE). EGEE používá middleware pod jménem gLite, který pokrývá značnou část požadavků gridových aplikací a také hojně využívá výsledky jiných projektů, zpravidla poskytujících funkcionalitu nižších úrovní, na nichž jsou postaveny gLitové služby. Příkladem takové spolupráce je systém Condor v distribuovaném prostředí, který je důležitou složkou gLitové služby WMS (Workflow Management System) zodpovědné za plánování gridových úloh a jejich dávkové zpracování. Dalším příkladem jsou prvky systému Globus, které poskytují autentizační rámec, na nichž stojí většina základní komunikace v gLite.
gLite ve skutečnosti není žádný drobeček, jak by se podle jeho názvu snad mohlo zdát: tvoří ho několik miliónů řádek kódu hned v několika jazycích a obnáší přes 100 MB. Jeho „odlehčenost“ spočívá v tom, že se zaměřuje zejména na snadnou instalaci, integraci a zprovoznění všech komponent. Současná stabilní verze gLite je již 3.0, ale middleware je nadále intenzivně vyvíjen a ne všechny komponenty jsou důkladně ověřeny v provozu.
Pro vlastní výpočty pracuje gLite se zobecněným pohledem na výpočetní prostředky (CE, Computing Element) a úložné kapacity (SE, Storage Element) a poskytuje nástroje pro efektivní práci s nimi. Pro správu úloh je k dispozici plánovač, jehož úkolem je vybrat nejvhodnější CE na základě specifikace, kterou uživatel popisuje úlohu (součástí specifikace jsou zejména nároky na počet procesorů, „vzdálenost“ k datovým souborům pro velké objemy dat, popis vstupních dat). Plánovač je zodpovědný za spuštění úlohy a její další sledování až do předání výsledků uživateli. Úlohy jsou po celou dobu monitorovány službou a uživatelé mají detailní přehled o jejich aktuálním stavu.
Gridové aplikace mají často značné požadavky na manipulaci s daty, proto gLite poskytuje vyspělé nástroje pro správu velkých objemů dat (i v řádu TB dat), řízení jejich replikací a specializovaných služeb, které řídí přesuny těchto dat mezi různými úložišti (v jednom z příštích dílů seriálu se podíváme do zákulisí úložných řešení gridů).
Součástí gLite jsou také distribuované informační služby, které zajišťují přenos a poskytování informací o stavu celého gridového prostředí. Protože se v gridech často zpracovávají úlohy manipulující s citlivými daty, je jedním z klíčových požadavků na jejich middleware kvalitní zabezpečení. Pro komerční použití gridů je pak stejně důležitá ochrana know-how organizace a jejích interních informací. Požadavků na bezpečnost v gridovém prostředí je celá řada (blíže se gridovou bezpečností budeme zabývat v jednom z příštích dílů seriálu).
Jednotlivé prvky gLite byly zpravidla navrhovány v souladu s SOA (Service Oriented Architecture) a nabízejí přístup prostřednictvím webových služeb. Cílem bylo usnadnit integraci a zajistit i snadnou kooperaci mezi různými gridovými platformami, kdy je možné jednotlivé komponenty kombinovat dle potřeby.
gLite si mohou zájemci osahat prostřednictvím zkušebního prostředí (testbed) s názvem GILDA (“Try the Grid”). Zde se také mohou seznámit s virtuální organizací (viz dále), zadávat úlohy a prověřit systém. GILDA je přeci jen o něco menší grid určený pro testování, než je EGEE, proto je prostředím používaným často také pro účely školení zaměřených na seznámení s gridovou problematikou.
Součástí middleware jsou i uživatelské nástroje pro přístup ke gridu. gLite nabízí řádkově orientované příkazy, které uživatel používá pro zadávání úloh a jejich sledování, a pro manipulaci s daty. K dispozici je i několik portálových řešení, která usnadňují zejména první seznámení s komplexním prostředím gridu. V rámci Masarykovy univerzity a sdružení CESNET je vyvíjen unikátní systém Charon, který nabízí řádkově orientovaný přístup, ale skrývá většinu detailů a umožňuje snadné přecházení mezi různými typy gridů.
Management prostředků a toku úloh
Úlohy v gridovém prostředí jsou nejčastěji zpracovávány dávkově, kdy uživatel popíše požadavky své úlohy (např. v jazyce JDL, Job Description Language) a tento popis předá plánovači (WMS v případě gLite). Plánovač je zodpovědný za výběr výpočetního prostředku, který nejlépe vyhovuje zadaným požadavkům. Protože nejde vždy provádět zadané úlohy okamžitě, musí middleware dobře plánovat (resource management, následný workflow management, zodpovědný za plánování celé skupiny vzájemně provázaných úloh.). Rozhoduje tudíž nejen o tom, kde se bude která úloha provádět a výsledná data ukládat, ale také kdy.
Současně je potřeba brát v úvahu priority jednotlivých úloh, takže do gridu se vnáší prvky známé z moderních komunikačních sítí: podpora QoS (Quality of Service) v rámci dohodnuté úrovně služby (SLA, Service Level Agreement). Je potřeba uvážit, že lokálně definovaná politika se může lišit od politiky vyžadované managementem prostředků gridu. QoS v gridových aplikacích má jako hlavní požadavek dobu konání úlohy, resp. termín jejího ukončení. Pro přenos velkých objemů dat se ovšem může dominantní stát šířka pásma a latence sítí propojujících jednotlivá místa gridu, případně také použitý transportní protokol a jeho konfigurace. QoS gridů a sítí tak velmi úzce souvisí (o významu komunikační infrastruktury pro zdárný chod a efektivní využití gridů bude řeč v dalším díle seriálu).
Virtuální organizace
Jakožto otevřená heterogenní výpočetní infrastruktura je grid charakterizován svojí dynamičností v mnoha aspektech: o všem, co se týká průběhu zadané aplikace nebo výpočtu, se rozhoduje dynamicky a dynamicky dochází také k adaptaci těchto rozhodnutí. Proto se v gridu uplatňuje princip virtuální organizace (VO), která sdružuje lidi i prostředky, které lze dynamicky (z)organizovat pro daný cíl.
VO sdružuje uživatele, kteří se zabývají stejným cílem, např. výzkumem určité části oblasti částicové fyziky pomocí dat z LHC (viz článek Grid computing ve firemním prostředí). Tito uživatelé ale pocházejí z různých mateřských institucí a spojuje je společná výzkumná aktivita, nikoliv formální pracovně-právní vztah. VO zpravidla překlenuje řadu institucí napříč státy, či dokonce kontinenty. Úkolem VO je společná správa těchto uživatelů a vytváření prostoru pro řešení cílů VO, tj. zejména výpočetních prostředků, přístupu k datovým úložištím či specializovaným zařízením.
Každá VO má svoji politiku, která specifikuje podmínky přijetí uživatelů a upravuje práva a povinnosti svých členů. VO také poskytuje a provozuje (sama nebo ve spolupráci s jinou VO) middleware potřebný pro realizaci příslušných aplikací. VO také zpravidla poskytuje uživatelskou podporu.
Ve federaci střední Evropy (sdružující Českou republiku, Polsko, Rakousko, Slovensko, Maďarsko, Slovinsko a od prosince 2005 také Chorvatsko) vznikla v rámci EGEE zvláštní VO pod označením VOCE (Virtual Organization for Central Europe), poskytující na rozdíl od ostatních specificky zaměřených VO neutrální prostředí pro uživatele bez vazby na aplikační VO. K této VO se může přihlásit kdokoliv ze střední Evropy, kdo má zájem využívat prostředí EGEE gridu a otestovat, zda je vhodné pro jeho aplikace.
Jediným předpokladem pro podání žádosti o členství je vlastnictví digitálního certifikátu od akreditované CA (Certification Authority). Na rozdíl od prostředí GILDA nabízí VOCE výrazně bezpečnější a stabilnější prostředí, které je vhodné i pro pravidelné produkční použití. Sdružení CESNET také pořádá zhruba jednou ročně kurzy zaměřené na gridovou problematiku, kde se lze s VOCE a s gridy obecně seznámit.
Nejen pro výzkumníky
Z dosud uvedeného by se mohlo zdát, že grid je doménou výhradně vědecké komunity, protože slouží pro komplexní výpočty v rámci výzkumných projektů. Opak je pravdou, protože i v podnikové sféře se najde řada úkolů, pro něž je grid vhodný. Zejména velké firmy začínají uvažovat o zavedení gridu do služeb e-business, CRM a dodavatelsko odběratelských řetězců (supply chain management). Gridy již využívají finanční instituce pro komplikovanou analýzu rizik a také farmaceutické společnosti pro simulace dopadu nových léků.
Proto také většina velkých dodavatelů počítačů jako HP, Sun, IBM, či dokonce Microsoft již nabízejí hardware a software podporující propojení serverů, PC i velkých počítačů do gridu. Např. IBM má v současné době cca 400 zákazníků pro gridové řešení z oblasti pojišťoven, bank, farmaceutického průmyslu. Protože se však v této oblasti otevřené specifikace vyvíjejí velmi pomalu, výrobci na ně nechtějí čekat, takže stávající gridy používají různé technologie.
Podle průzkumu Oracle Grid Index [PDF, 489 KB], zmiňovaného na počátku tohoto seriálu, je grid computing nejpopulárnější v sektoru telekomunikací, hi-tech a vědě a výzkumu (viz obrázek). Uplatnění pro něj vidí i sektory obchodu, výstavby či dopravy. Zatím nejméně si využití gridu umí představit dotázaní ve zdravotnictví.
EGEE a podobné iniciativy slouží jako průkopníci v této oblasti: pro vývoj a testování výpočetních struktur, síťových a bezpečnostních technologií a přípravu jednotných norem. Proto také do této oblasti plynou prostředky z veřejných zdrojů. Otevřenými specifikacemi se zabývá také Open Grid Forum http://www.ogf.org (nástupce Global Grid Fora), jehož úkolem je podporovat konvergenci a vzájemnou spolupráci systémů.
S upřesňujícími informacemi laskavě přispěli k textu tohoto článku čeští odborníci na grid computing: Doc. RNDr. Luděk Matyska, CSc. a Mgr. Daniel Kouřil z Masarykovy Univerzity v Brně, kteří se aktivně podílejí na gridových aktivitách CESNETu a souvisejících projektech EU, včetně EGEE II (doc. Matyska byl v září zvolen předsedou řídicí rady tohoto projektu).
Další zdroje:
Reinefeld Alexander, Laforenza Domenico, Getov Vladimir (editors): Future generation grids, 2006 (ISBN 0–387–27935–0)