Ze superpočítačů (HPC) se stala cool záležitost. Ony tedy byly cool vždy, ale spíše jen pro nerdy. Teď se ale dostávají do širšího povědomí, protože jsou plné čipů od společností Nvidia nebo AMD sloužících k pohánění nové éry umělé inteligence typu ChatGPT od OpenAI. Nadšení kolem AI vyneslo Nvidii na post nejhodnotnější firmy světa, superstroje už tedy neumožňují „pouze“ vědecké a průmyslové simulace, ale také akciové nadšení na burze. A HPC a AI clustery v podstatě fúzovaly do téže disciplíny.
Příliv zvedá všechny lodě, takže se na úspěchu Nvidie vezou i další společnosti. Typickým příkladem je jihokorejská SK Hynix, hlavní dodavatel velmi rychlých pamětí HBM (aktuálně HBM3E a chystá se HBM4), které se v kombinaci s AI čipy od Nvidie či AMD používají, podobně jako videopaměť ve vaší grafické kartě.
A pak jsou zde tvůrci serverů, do nichž se všechny ty křemíky instalují. Takové Supermicro od loňského roku zažívá obrovskou akciovou jízdu, které byla přistřižena křidélka až vlivem účetních nesrovnalostí a dnes již zřejmě odvrácenou hrozbou delistování z burzy.
Žravá záležitost
Servery obsahující Nvidie musí kromě jiného řešit jednu zásadní věc, a sice chlazení. Pokud chcete do jednoho racku nacpat velké množství opravdu žravých čipů, projeví se to v produkci tepla. Nvidia u nové a pomalu nastupující generace Blackwell nejdříve musela řešit problémy s architekturou a nyní se mluví o dalších problémech spojených s chlazením celých kabinetů. Tyto záležitosti se řeší právě s partnery typu Supermicro, kteří už do systémů instalují výhradně chlazení tekutinou.
Běžný serverový rozvaděč osazený servery s novými Nvidiemi může mít odběr mezi 30 až 120 kW. To klade velké nároky na infrastrukturu datových center a například v Česku na velké instalace AI clusterů z tohoto pohledu nejsme připravení. Zároveň se nelze divit tomu, že velcí odběratelé jako Microsoft, Google nebo Amazon Web Services chystají výstavbu vlastních jaderných elektráren.
Příklad: jedna „krabice“ DGX B200, v níž je instalováno osm čipů B200 (plus Xeony, storage a nějaká ta síťařina), si bere 14,3 kilowattu. Do racku se vejdou čtyři, což dělá 57,2 kilowattu. A to jde pouze o DGX, větší instalace jdou mnohem dále. Navíc v takovém rozvaděči jen IT vybavení váží 520 kilogramů, na jeden kilowatt je tedy potřeba 10 kilogramů. To znamená i nároky na podlahy. „Dnes v ČR reálně tyto nové AI systémy nemáme kde provozovat,“ shrnul Petr Ding, technologický ředitel společnosti Altron zabývající se výstavbou datacenter.
Jak vypadá cluster HPE Cray EX4000 s čipy Nvidia:
Největší instalace Nvidií v Česku dnes lze pravděpodobně vidět v Seznamu a ostravském národním superpočítačovém centru IT4Innovations (možná Škoda a někdo další mají něco velkého). Seznam si vyvíjí vlastní model Šelma a už disponuje stovkami karet H100 a dalšími stovkami L4. Superpočítač Karolina má 576 kusů dnes už starších A100 a v rámci nákupu nového stroje počítá s výrazným navýšením části s GPU, mimo jiné kvůli silné poptávce kolem AI.
V Česku nemáme velké ekonomické subjekty typu Microsoft nebo Google, které by zvládly velké AI clustery financovat. Instalace jako ty od Seznamu nebo IT4Innovations tak budou spíše ojedinělé a ve světovém kontextu malé. O Blackwelly je u nás nicméně první opatrný zájem, hlavně ale o zmiňované malé boxy DGX.
Ani ty ale nebudou levná záležitost. Pražská společnost M Computers, která Nvidii zastupuje v našem regionu, nabízí DGX B200 za 703 800 eur (nejdelší podpora), což dělá 17,8 milionu korun. Při osmi čipech B200 je to dejme tomu dva miliony za čip. DGX u nás historicky nakupují hlavně univerzity a výzkumné instituce. Od nich je nyní možné díky dotacím získat přístup k Nvidii zdarma. „Dodávky Blackwellů lze očekávat v první polovině příštího roku, možná déle, termíny se neustále mění,“ shrnul Petr Plodík, obchodní ředitel M Computers.
Stovky kilowattů na kabinet
Energetické nároky každopádně jdou ještě dále. Společnost Dell, která v minulosti dodala klastr se sto tisíci kartami H100 Muskovu xAI, představila kabinet IR7000 podporující až 480 kilowattů. Do jednoho kabinetu si díky tomu můžete dát třeba 144 čipů B200, což dělá 30 bilionů tranzistorů.
Servery s čipy Nvidia H200:
Hewlett Packard Enterprise (HPE) dokáže do jednoho racku nacpat až 400 kilowattů. To ale znamená kolem samotných serverů a čipů vybudovat masivní chladicí systém. Na jeden takový se můžete podívat v naší galerii (a v článku jsou i galerie dalších AI serverů). Jde o systém HPE Cray EX4000 osazený blade servery EX254n. Systém je kompletně chlazený kapalinou včetně síťových prvků Slingshot. HPE do jednoho takového kabinetu umí dát například až 448 čipů Nvidia GH200 s tím, že chlazení zabírá podstatnou část instalace.
Z těchto racků se pak skládají celé clustery, respektive superpočítače. Novým sedmým nejrychlejším strojem planety je podle žebříčku TOP500.org švýcarský Alps složený právě z EX254n. Celkově obsahuje 10 752 čipů GH200, což je kombinace procesorových jader ARM a Nvidia H100.
Vyrobeno v Kutné Hoře
Alps byl vyráběn v Kutné Hoře, kde HPE rozšířila zakázkovou výrobu Foxconnu o novou halu zaměřenou na superpočítače chlazené kapalinou. Jde o první takovou výrobu mimo USA a z Česka se tím obhospodařuje kus planety. Pro HPE je Česko díky tomu strategickou lokalitou, zejména pro Evropu.
V Kutné Hoře se počítá také s produkcí Blackwellů. Nové modely EX154n jich zvládnou pojmout až 224 v rámci jednoho kabinetu. Součástí bude i Slingshot 400 schopný posílat data rychlostí 400 Gb/s.
Další variace serverů s Nvidia H200:
Servery v Česku mimochodem montuje Wistron, což je další tchajwanská společnost. Z Brna dodává Microsoftu, Metě, Amazonu nebo Fujitsu. Firma nereagovala na dotazy Lupy ohledně toho, zda v provozovně na Moravě, kde ročně udělá tržby kolem 30 miliard korun, bude dávat dohromady i Blackwelly. Každopádně Tchaj-wan je v AI boomu velkým vítězem. Nejenom že výroba čipů závisí na tamní TSMC, ale i velká část produkce serverů či chlazení jde přes tamní společnosti.
Alternativa k Nvidii
HPE dnes provozuje tři nejrychlejší superpočítače na světě, všechny jsou v USA a všechny přesahují výkon jeden exaflop. Novou jedničkou se stal El Capitan, druhý je Frontier. Oba ovšem nevyužívají Nvidii, ale karty Instinct od AMD, stejně jako procesory AMD Epyc. AMD už má v TOP500 více instalací než Nvidia. Konkurent Nvidie nabízí dobrý hardware často vybavený větším množstvím paměti. To v případě obřích instalací kompenzuje slabší softwarovou podporu, respektive to, že AMD nemá nástroj CUDA a knihovny kolem.
Nvidia se snaží softwarovou pozici betonovat. A otevírat nástroje jako open source jen tak nebude. Důvodem není pouze vendor lock-in. Open source vyžaduje poměrně dlouhý proces, dokumentaci a podobně. „Dát něco do upstreamu je pro tým práce tak na rok,“ řekla při návštěvě Prahy Arts Yang, architektka systémů Nvidia DGX.
Servery s čipy GH200 (Grace Hopper):
Uzavřenost Nvidie je důvod, proč se trh snaží najít alternativy. Nvidia má například technologii NVLink pro mezičipová propojení. Nedávno vznikla organizace UALink, která by do oboru měla přinést standard a interoperabilitu. Podobně, jako vznikl Ultra Ethernet. Členy UALinku jsou HPE, Intel, Meta, Microsoft, Broadcom, AMD, Cisco a Google, tedy silná formace. „Vizí je, že UALink bude kompatibilní se vším na trhu,“ řekl Lupě Gerald Kleyn, superpočítačový šéf v HPE.
Prý nová průmyslová revoluce
Boom kolem AI zřejmě bude ještě nějakou dobu pokračovat, byť například Evropská centrální banka varovala před možnou bublinou. Výkonný ředitel HPE Antonio Neri na setkání s novináři a analytiky v Barceloně uvedl, že AI je jednou z mála skutečně masivních změn v celém odvětví a že je to něco, co jsme tady ještě neměli. Mají se transformovat všechny obchodní sektory. Nvidia s partnery hlásají, že je čas se připojit k nové průmyslové revoluci.
Yang z Nvidie v Praze načrtla, že takzvané AI továrny přinesou zásadní změny do oborů, jako je zkoumání molekul, proteinů, digitálních dvojčat nebo DNA. Na AI tedy nelze pohlížet pouze zúženou optikou jazykových modelů a generátorů obrázků a hudby.
„Google, AWS, OpenAI a další investují desítky miliard dolarů do nových GPU, chlazení a celých cloudových datacenter. Nevidíme, že by poptávka přestávala,“ uvedl Neri. Nvidia v posledním čtvrtletí zdvojnásobila čistý zisk a opět výrazně zvýšila tržby. Rychlost růstu ale zpomaluje, což může značit jisté nasycení trhu, uvidíme. „Jsou zde lokality jako Blízký východ, které, jak se zdá, mají neomezené množství kapitálu. Nevypadá to, že by s investicemi do AI v brzké době chtěli přestat,“ doplnil Neri. „V dodávkách superpočítačů stále vidíme dlouhodobou poptávku na trhu,“ dodal pro Lupu Kleyn.
IT obři už nějakou dobu vytváří infrastrukturu AI clusterů, teď ale ještě najít obchodní modely. Vzniká tlak prodávat a LLM modely nějak zužitkovat v praxi, a ne pouze v rámci firemních proof-of-conceptů. Na trhu teď proto bude vidět velké množství konzultantů z firem jako Deloitte, s nimiž HPE a spol. vytváří partnerství. Deloitte a další mají pomáhat AI ohýbat pro účely praktického nasazení. To s sebou kromě jiného ponese zvýšené nároky na čištění a uspořádání dat, z čehož mimo jiné těží i české startupy jako Ataccama, které k tomu dodávají software.