Společnost X.ai uvolnila velký jazykový model Grok-1 pod licencí Apache 2.0. To uživatelům dává bezplatný přístup ke zdrojovému kódu s využitím pro komerční i soukromé účely.
Uvolněný model se omezuje na data z předtréninkové fáze, která skončila v říjnu loňského roku. Také není vyladěn pro žádnou konkrétní aplikaci, jako je například dialog. Této verze tak nebudou moci využít firmy, které by chtěly zdarma vytvořit konverzačního chatbota. Jim X.ai doporučuje využít některý z modelů Meta Llama 2 nebo Mistral Instruct.
Model Grok-1 má 314 miliard parametrů. To potvrzuje, že je větší než GPT-3/3,5, ale pravděpodobně menší než GPT-4. Je také více než čtyřikrát větší než model Llama 2 70B společnosti Meta. Počet parametrů sice přímo nesouvisí s výkonem, ale často poskytuje lepší výsledky ve spojení s velkými a kvalitními trénovacími soubory dat a architekturami.
X.ai také uvedla, že architektura systému Grok-1 je založena na návrhu Mixture-of-Experts (MoE). Podle výzkumníků jsou modely MoE efektivnější metodou škálování na vyšší výkon než načítání počtu parametrů. Namísto jednoho velkého modelu, který zpracovává všechny dotazy, se MoE skládají z několika „expertních“ modelů specializovaných podle úloh.
Příkladem mohou být dílčí modely pro uvažování, překlad jazyka, generování textu, sumarizaci nebo matematiku.
Na rozdíl od unifikovaných modelů typu GPT-3, mají modely MoE také arbitrážní funkce. Arbitráž přiřazuje úlohy dílčím modelům na základě požadavku a hodnotí odpovědi před jejich doručením uživateli. Tím, že se pro každý dotaz neaktivuje celý model, vede to ke snížení výpočetních nákladů i latence.