Nové trendy ve vyhledávání (3)

2. 1. 2001
Doba čtení: 4 minuty

Sdílet

Dnešní článek byl měl uzavřít miniseriál o moderních vyhledávacích technologiích. Tentokráte si ukážeme, jak současné hledače dokáží detekovat podobně zaměřené servery a následně automaticky kategorizovat stránky. Stejně jako v předchozích článcích budeme používat analýzu struktury Internetu pomocí odkazů.
Představte si, že z celého českého Internetu znáte pouze tento článek a doménu www.lupa.cz. Lupa se vám líbí a chtěli byste číst i další, podobně zaměřené články. Neznáte ale z hlavy adresu žádného českého katalogu a jediné, co u sebe náhodou máte, je počítač s databází obsahující všechny české stránky. Co uděláte, abyste v této záplavě informací nalezli nějaký další časopis o počítačích a Internetu??

Cesty k řešení jsou v zásadě dvě. První by spočívala v tom, že se podíváte, o čem Lupa píše (tedy jaká slova jsou na jejích stránkách nejčastější), a porovnáte to s počty výskytů slov na ostatních stránkách. Toto zní jako přirozený postup, ale nejen že je algoritmicky velmi náročný, také pravděpodobně nedospějete k žádnému dobrému výsledku. Maximálně najdete někde mirrory Lupy samotné, ale časopisy, které píší o podobných tématech těžko – hlavně proto, že všichni používáme stejný jazyk (český), a slov, která jsou specifická pro počítačově zaměřené servery je málo, a tak informace, kterou máte, vám nebude stačit k dostatečnému rozlišení. Ačkoliv je tedy tato technika teoreticky zajímavá a možná se jí budeme ještě v budoucnu zabývat, nyní nám vůbec nepomůže.

Druhá cesta je daleko perspektivnější a také se v současnosti používá. Nejste totiž na Internetu sami a někdo jiný už podobnou otázku určitě řešil. A je dokonce možné, že za sebou nechal nějakou stopu, kterou můžete použít. A tak stejně jako u algoritmu Autorit a Rozcestníků, kterým jsme se zabývali minule, budeme předpokládat, že odkazy mezi jednotlivými stránkami nejsou náhodné a skrývá se za nimi určitý řád, záměr a úmysl jejich tvůrce. Například stránky v katalozích jsou tématicky zaměřené a na domácích stránkách nějakého uživatele jsou odkazy, které odpovídají jeho zájmům.

Z toho můžeme usoudit, že když je na nějaké stránce hyperlink na /, tak u dalších odkazů uvedených na stejném místě je vyšší pravděpodobnost, že to budou také stránky o počítačích a Internetu. Spočítáme tedy pravděpodobnost, s jakou se jednotlivé linky vyskytovaly společně s linkem na Lupu, a stránky s největší pravděpodobností budou ty námi hledané.

Vyhledávání podobnosti umí např. Google nebo Altavista. Z českých fulltextů (stejně jako všechny vlastnosti probírané v tomto seriálu) to nedokáže žádný. Konkrétní algoritmus, který např. Google používá, není nikde dokumentovaný, proto výše uvedené berte spíše jako moji představu o řešení úkolu.

Zajímavou alternativou je Alexa, která také určuje podobnost stránek, ale ne na základě odkazů, ale podle sledování uživatelů, kteří si software od ní nainstalovali. Stránky, které mají z velké části shodnou uživatelskou základnu, jsou pak označeny za podobné. Tyto informace jsou zajímavým vedlejším produktem hlavního zaměření Alexy, kterým je měření návštěvnosti serverů pomocí monitorování vzorku uživatelů. Podobný postup používá např. i MediaMetrix, PC Data Online (ten výsledky zase používá ve svém katalogu Top9.com) nebo v budoucnu český SPIR.

Automatická kategorizace


Pokud jsme schopni programem rozlišit, které stránky k sobě tématicky patří, jsme už na půli cesty k algoritmu, který by samostatně vytvářel katalog, jaký má kupříkladu Yahoo nebo Seznam. Pouze bychom potřebovali vyřešit problém, jak nalezené skupiny kategorizovat tak, aby se v nich lidé snadno orientovali. I když i toto by šlo algoritmicky řešit, zatím se spokojíme s tím, že nějaký „lidský“ zásah do systému bude nutný.

Na Internetu už dlouhou dobu existuje projekt Hubat, který se o automatickou kategorizaci snaží. Jeho myšlenka je poměrně jednoduchá – celý systém spravuje člověk, který vytvořil základní stromovou strukturu katalogu a pro každou kategorii zvolil jednu stránku jako příklad. Zbytek už záleží na robotech – jejich úkolem je procházet Internet a hledat stránky, které se té „příkladné“ podobají. K posuzování podobnosti mohou docela dobře používat výše uvedený postup, i když je pravděpodobné, že je jejich algoritmus ještě vylepšený: například tak, že neposuzuje podobnost s příkladem, ale hned s celou množinou stránek, které do dané kategorie patří.

Yahoo je spravované asi 120 lidmi, kteří posuzují vhodnost stránek, které jim uživatelé posílají. Ani s takhle velkým týmem lidí se ale nápor zřejmě nedá zvládnout, jak dokládají časté nářky webmasterů, kteří nemohou své stránky do Yahoo protlačit. Systém, který používá Hubat, hodně ulehčí administraci systému – místo 30 odkazů je nutné vložit pouze jediný. I pak ale pravděpodobně na běh robota někdo dohlíží a opravuje jeho případné chyby.

Nejlepší způsob, jak kvalitu Hubatova katalogu posoudit, je podívat se na něj. Určitě vás překvapí, že dokáže k vybraným stránkám přiřadit i poměrně inteligentní popisek. Tato vlastnost se ale do dnešního článku už nevejde a tak mi nezbývá než popřát vám skvělého Silvestra a možná se setkáme nad dalšími zajímavými nápady zase v budoucnu.

Autor článku

@michalillich, nyní podnikatel, mentor a případný investor; předtím zakladatel firmy Jyxo, která kromě vyhledávače vyvinula i Blog.cz, Galerie.cz a původní verzi Sklik.cz.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).