Mýtus sémantického webu nebo znalostní vyhledávač Wolfram Alpha?

18. 5. 2009

Doba čtení: 5 minut

Autor: 21971

Se sémantickým webem je to podobné jako s Yettim či Járou Cimrmanem - víme toho o nich mnohé, ale ve skutečnosti je nikdo neviděl. Jaké jsou možnosti současných sémantických vyhledávačů a co očekávat od čerstvě spuštěného Wolfram Alpha?

Sémantický web je pojem sice hojně se vyskytující, ale nikoli jednoznačně definovaný. Nejčastěji se pod ním skrývá označení dokumentů, které v sobě nesou metainformace, které je možno strojově zpracovat a dále nějakým způsobem využít. Z tohoto pohledu jsou zástupci sémantického webu například mikroformáty – hCalendar může nějaký kalendář použít například pro import dat či synchronizační procesy.

Druhým pohledem je požadavek, aby bylo možné vyhledávat za pomocí přirozeného jazyka. Počítači položíme otázku (Např.: „Jaké bude zítra počasí“ nebo „Jaký čas měl nejrychlejší kůň na Velké Pardubické v roce 2002“) a vyhledávací stroj na ni nějakým způsobem odpoví („Bude pršet a teplota bude mezi 18–22 °C“). Zde je především problém strojového zpracování dotazu a vydolování správné odpovědi.

Podle všeho na tomto principu chce stavět Wolfram Alpha. Z položené otázky „vytáhne“ slovní spojení či samotná slova, pokusí se najít relevantní dokument a z něj získat odpověď (např. pomocí tázacího zájmena). Jak ale může uživatel zjistit, nefunguje to tak úplně dobře, protože analýza přirozeným jazykem položeného dotazu je (zatím) příliš složitá.

Je zde možnost si ale otázky předpřipravit. Pokud v nejbližší době někde začne fungovat znalostní vyhledávání, tak to bude na Wikipedii. Ta nabízí vše potřebné – velkou databázi unifikovaných znalostí, velké množství nadšených dobrovolníků pro tvorbu otázek i testování. Stačilo by jen k vybraným souslovím či pasážím přiložit uživatelem neviditelné otázky jako metadata a na ně připojené odpovědi. Vyhledávací stroj by pak neprocházel samotná hesla, ale pouze předchystané otázky.

Vymyslet, na co se budou uživatelé ptát, nemusí být u většiny hesel úplně obtížné. Je zřejmé, že se ale jedná o obejití základní koncepce sémantického webu, tedy požadavku na to, aby stroj „rozuměl“ dokumentu, který vyhledává.

Wolfram Alpha

Wolfram Alpha se stal předmětem velkých očekávání a smělých výroků o tom, že bude konkurovat Google, nebo že alespoň bude jeho zajímavým doplňkem. Po zadání několika dotazů nebo jen modifikací některých ukázkových příkladů je ale patrné, že má ještě stále co dohánět. Spojitost s matematickým softwarem se nezapře, a tak Wolfram Alpha umí derivovat (viz příklad). Některé matematické dovednosti mu jdou poměrně poměrně dobře a během testování (asi 48 hodin) se například derivování výrazným způsobem vylepšilo – ještě v pátek neuměl vyhledávač vyřešit derivaci d/dx (A^sin(e^x)) .

Osobně jsem měl velký problém najít nějakou smysluplnou odpověď na otázku, která by nebyla psána jako mírná modifikace zadaných ukázek. Vše je navíc velmi pomalé, což může svědčit o velkém zájmu uživatelů. Jak již bylo naznačeno, výsledky se poměrně rychle lepší, takže se může zdát, že vypuštění projektu bylo příliš uspěcháno a vystavuje se riziku zklamání od některých uživatelů.

Projekt se tedy snaží postupně budovat soubor otázek a jejich podkategorií a přiřazovat jim správné odpovědi. K inteligentnímu vyhledávání ale má daleko a po několika pokusech lze snadno dojít k závěru, že až na výjimky podá Google lepší odpověď i na otázku v přirozeném jazyce než Wolfram Alpha. Zdá se však, že může být otázkou času, kdy se alternativní vyhledávač stane konkurenceschopným a silným hráčem na poli vyhledávačů.

Světlo v tunelu?

Wolfram Alpha však není prvním a ani jediným znalostním vyhledávačem, nebo chcete-li sémanticky orientovaným vyhledávacím strojem. Například na stránkách W3C je k dispozici hned celá řada odkazů na různé (především výzkumné a vědecké) projekty. Jejich výsledky zatím ale nejsou nijak oslnivé v globálním měřítku.

Tím, co by rozvoji sémantického webu prospělo, by byl větší zájem vývojářů a administrátorů do svých stránek umísťovat RDF data, což je ovšem hudba vzdálené budoucnosti (pokud nějaké), a to z nejrůznějších důvodů.

Pravdou je, že Wolfram Alpha opět dokázal rozpoutat zájem o sémantický web i u širší veřejnosti, což by mohlo vývoji a výzkumu nejrůznějších nástrojů, které by se pokoušely simulovat inteligentní vyhledávání, prospět.

Vyhledávače začínají mít nejrůznější zajímavé experimentální prvky, které by mohly cestě k lepšímu vyhledávání pomoci. Google představil nástroje, jako je časová osa, kolečko kontextových informací a několik dalších funkcí, které se začínají „porozumění“ obsahu dokumentů značně blížit.

Etický problém

Nezanedbatelná je ale ta skutečnost, že se znalostním vyhledáváním (a znalostními databázemi vůbec) lze poměrně snadno manipulovat a zkreslovat skutečnost či dokonce lhát. Toho lze jistě využít v marketingu politickém, ideovém i komerčním. Možnost ověřování správnosti dat je například u Wolfram Alpha poměrně malá – dostanete k dispozici odpověď, o které vyhledávač rozhodne, že je správná.

Téměř učebnicovým příkladem toho, že ne vždy se vyplatí věřit znalostním webům, je nedávný případ týkající se Wikipedie. Student Shane Fitzgerald na ni přiřkl (záměrně zcela nepravdivě) výrok „Někdo by mohl říci, že můj život byl jedním dlouhým soundtrackem“ francouzskému skladateli jménem Maurice Jarre. V jeho nekrolozích u celé řady novin či webů se tento výrok objevoval a u některých článků dokonce tvořil nadpis. Na mystifikaci musel až po nějaké době upozornit sám student.

Pokud si informace nedokáží (nebo nechtějí) ověřovat novináři, těžko můžeme očekávat, že si je budou verifikovat obyčejní konzumenti zpráv. Prostor pro manipulaci je tedy poměrně značný a ochrana před ní je u celé řady konceptů vyhledávání velmi malá – nepočítaje v to možnost zkusit nějaký jiný (klasický) vyhledávač.

Závěr

Sémantický web je lákavou technologií, která může mít nejširší uplatnění při rešerších či běžném vyhledávání. Postupně se začínají hledat možnosti, jak nahradit RDF přímo v souborech a data uchovávat na straně zpracovávajícího stroje, což se ale zatím jeví jako příliš výpočetně náročné a málo flexibilní řešení.

Poměrně dobrých výsledků se daří dosahovat například při rozpoznávání obsahu obrázků (Mufin), což je jedna z velice důležitých komponent k dobrým výsledkům vyhledávání.

Otázkou ale zůstává, zda sémantický web bude někdy vůbec realizován. Zda to nebude nakonec jiná, progresivnější a marketingově úspěšnější koncepce, která ho překoná stejně neodvratně, jako zanikl např. w@p, na jehož nástup se svého času tak dlouho čekalo a z jehož porážek a kladů těží koncepce mobilních webových stránek dodnes.