Seznam.cz nasadil novou verzi vyhledávání. Může vést ke změnám v pořadí výsledků

19. 1. 2023

Sdílet

Seznam.cz - homepage - hlavní stránka - 2022 Autor: screenshot, Lupa.cz

Seznam.cz nasadil novou verzi vyhledávání. Je to výsledkem projektu, který se interně nazývá “vsáknutí vektorů”. Dušan Janovský ze Seznamu uvedl, že to může vést k velkým změnám v pořadí nalezených výsledků.

Janovský změny popisuje takto:

Hlavní změna proběhla na nejhlubší vrstvě výběru kandidátů v komponentách předvýběru, které ještě nevyhodnocují relevanci, ale jenom k dotazu vybírají vhodné dokumenty pro další vyhodnocování. Podstatou změny bylo vnitřní spojení (vsáknutí) různých metod výběru.

Starší metoda je vybírání podle slov obsažených ve stránce (termový výběr), novější vybírá stránky pomocí jejich vektorové reprezentace. Poslední dva roky se tyto dva způsoby výběru kandidátů řešily na různých strojích a spojovaly se až v pozdějším procesu relevance.

Teď jsou termy i vektory na stejných strojích v blízkých komponentách. Účelem je, aby si mohly termy a vektory navzájem pomáhat. Zároveň se trochu rozvolnily požadavky na úzkost shody, takže relevance dostává kandidátů víc a může je následně pomocí vektorů řadit efektivněji.

Protože změny proběhly na hlubokých vrstvách vyhledávání, které také produkují nové signály (např. ty vektorové), bylo potřeba vytunit nebo přeučit i spoustu komponent relevance na vyšších vrstvách. Všechny relevanční modely jsou nové, a tak očekávám změny ve výsledcích velké.

Jedná se o klasický infrastrukturní projekt, jehož cílem není bezprostřední zaměření na nějakou vlastnost vyhledávání pro uživatele. Spíš je to odrazový můstek pro další zásadní rozvoj. Veřejně to hlásím jenom proto, že budou poskakovat ty výsledky, jinak je to dost interní věc.

Jako vektorová interpretace se používají embedingy z prediktivních jazykových modelů Electra naučených na korpusu z robota a doučených na relevančních anotacích. Takhle naučené neuronové síti se uříznou hlavičky a předposlední vrstva se prohlásí za vektor (embeding) vstupu.

Transformerová architektura využívá předpokladu, že podobné vstupy mají semanticky podobné embedingy (měřeno např. cosinovou podobností vektorů). Když pak uživatel zadá dotaz, stačí z něj neuronkou spočítat vektor a porovnat ho se všemi vektory všech dokumentů.

To se snáze řekne než udělá, hlavně protože těch všech vektorů jsou velké miliardy. Zároveň protože se vektory musejí někam vejít do paměti, jsou menší, než by bylo optimální, a tak se do nich nepřenese veškerá sémantika. Proto musejí stále významně pomáhat i slova z dotazu.

Celý projekt vsáknutí vektorů byl přípravou na další rozvoj s chytřejšími jazykovými modely. Žádný vyhledávač nemá dnes dost grafáren, času ani paměti na to, aby prohnal celý index příšerkou typu GPT-3, ale prostor pro další použití jednodušších modelů je obrovský.

Jednu z předchozích seznamáckých verzí jazykových modelů Seznam veřejně publikoval. Novější interní verze se liší zatím jen v tom, že jsou trénovány déle a na  větších datech.

Našli jste v článku chybu?

Autor aktuality

Reportér Lupa.cz a E15. O technologiích píše také do zahraničních médií.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).