Notoricky zmiňovanou zvláštností českého fulltextového trhu je přítomnost silného lokálního hráče. A nejen silného, Seznam je přímo jedničkou. Stabilně a s velkým náskokem. Lze to hodnotit pozitivně i negativně, ale jednoduše to tak je. Zatímco téměř všude ve světě byly místní portály a vyhledávače zejména Googlem převálcovány, Česko je výjimečný ostrůvek. S podivem to je o to více, že další vzdorující trhy (čínský, korejský a ruský) jsou neporovnatelně větší (alespoň ve svém potenciálu).
Seznam kraluje, Google bojuje, ostatní končí
Monitoring návštěvnosti Navrcholu.cz v listopadu uveřejnil nová čísla podílů vyhledávačů. Když jsme o nich psali posledně, jmenoval se článek Vyhledávání zcela dominuje Seznam. Ovšem objevila se před ním nemalá hrozba v podobě zformování české pobočky Googlu, která se stará o aktivnější lokalizaci a získává prostor v médiích. K jakým pohybům na českém trhu za oněch devět měsíců došlo, ukazuje tato tabulka:
Vyhledávač | Červenec 2006 | Říjen 2006 | Leden 2007 | Říjen 2007 | Absolutní rozdíl* | Relativní rozdíl** |
---|---|---|---|---|---|---|
Seznam | 61,10 % | 63,39 % | 62,53 % | 62,30 % | –0,23 | – 0,4 |
23,48 % | 23,85 % | 24,75 % | 28,87 % | 4,12 | + 16,6 | |
Centrum | 5,37 % | 4,72 % | 4,84 % | 3,39 % | –1,45 | – 30,0 |
Atlas | 2,86 % | 2,38 % | 2,58 % | 1,53 % | –1,05 | – 40,7 |
Jyxo | 0,79 % | 0,57 % | 0,42 % | 0,24 % | –0,18 | – 42,8 |
Zdroj: Navrcholu.cz
* rozdíl mezi říjnem a lednem 2007, v procentních bodech
** rozdíl mezi říjnem a lednem 2007, v procentech
Nárůst Googlu o více než 16 procent je razantní. Jelikož Seznam zůstává v zásadě na svém, Google „luxuje“ zbytky Centra a Atlasu. Centrum podle těchto čísel kleslo o 30, Atlas o 41 procent. To je v relativně krátké době masivní propad. S tím, jak se jejich podíl blíží nule, by se přitom dalo předpokládat spíše zpomalení tempa. Přitom v minulém srovnání žádný tak zásadní pád tržního podílu u menších vyhledávačů zaznamenán nebyl. Význam Atlasu i Centra klesal, v půlročním srovnání však jen o cca 10 procent. Pouze Jyxo se řítilo ke dnu již v únoru, čemuž mnozí nechtěli věřit. Další čísla Navrcholu však potvrzují, že Jyxo již jako relevantní vyhledávač skutečně skončilo.
Pokud se propad menších vyhledávačů nezpomalí, bude asi příští rok posledním, kdy ještě bude mít smysl je vůbec ve statistikách uvádět. Otázkou je, co se stane s jejich fulltextovými technologiemi. Atlas již letos přešel z Jyxa na Seznam. Jyxo sice stále označuje za svůj hlavní produkt vyhledávač, ale skvělého úspěchu dosáhlo se službou Blog.cz úplně jinde. Svou technologii licencuje některým zahraničním portálům ve střední Evropě, pokud je však známo, nikde nemají výraznější postavení. Centrum podobným způsobem spolupracuje v Polsku, ale ani u něj to nemůže být dostatečným argumentem pro vlastní vývoj něčeho tak komplikovaného a konkurenčního, jako je fulltext. Kvalita Jyxa a Centra proto do budoucna může jedině stagnovat – větší investice by byly vyhozenými penězi. Možná proto není vůbec daleko chvíle, kdy se Centrum – po vzoru Atlasu – rozhodne přejít na vyhledávání Seznamu či Googlu. Pokud se do českého trhu nepustí Microsoft s Windows Live, zůstává nám právě tato jediná podstatná dvojice. Windows Live má přitom i ve Spojených státech dost práce zastavit, či dokonce otočit svou sestupnou křivku, tuzemská ofenzíva se dá v dohledné době těžko předpokládat.
Zbývá tedy otázka, jestli Googlu může z českých portálů vzdorovat alespoň Seznam. Přestože jeho podíl zůstává na lichotivé úrovni, vzestup Googlu je varovný. Nabízejí se totiž dvě interpretace, odkud kam uživatelé proudí. Zisk Googlu podle Navrcholu v zásadě odpovídá ztrátám menších portálů. Jejich uživatelé jsou tedy možná méně konzervativní a Internetu znalejší, dali proto přednost světové jedničce. V takovém případě by Google v dalších měsících mohl dosbírat zbytky Centra a Atlasu, z podílu Seznamu by si však mnoho neukousl. Může to být ale také trochu jinak. Možná Google rovnoměrně „obírá“ o uživatele všechny české portály. A pouze rapidní vyklízení trhu Centrem a Atlasem, odpovídající jejich nové orientaci na média, vyvažuje ztráty Seznamu natolik, aby opticky zůstával stabilní. Odpověď se dost možná dozvíme již z příštích výsledků. Google buď zpomalí, nebo bude růst dál. V takovém případě však již nezbytně na úkor Seznamu.
Metodika
Pro vysvětlení významu čísel Navrcholu je vhodné stručně si zopakovat způsob měření. Čísla jsou postavena na měření refererů serverů využívajících služeb Navrcholu. Dále jsou zpřesněna metodikou vytvořenou ve spolupráci s agenturou Factum Invenio. Nezbytné je zdůraznit, že výsledek udává význam vyhledávačů pro české stránky, nikoliv podíl vyhledávačů mezi uživateli. Je možné, že Seznam lidé používají k českému hledání a Google k hledání ve světě. To však Navrcholu nemůže zachytit. Na druhou stranu však také ne všichni návštěvníci z Googlu musejí být nutně Češi. Pokud na vaši stránku náhodou narazí Japonec, v Navrcholu je započítán. Oba předpokládané jevy jdou proti sobě – první čísla Googlu snižuje, druhý zvyšuje. Těžko říci, který z nich je silnější. Ve výsledku však můžeme docela věrohodně usoudit, že čísla Navrcholu víceméně odpovídají i podílům hledajících českých uživatelů.
Zbraní jsou vertikály
Šance Seznamu na vzdorování jsou mimo jiné určeny vývojem vyhledávacích technologií a jeho schopností držet krok. Dosud se mu to poměrně daří. Jeho webový vyhledávač není přes časté výhrady ve srovnání s Googlem nijak podřadný. Žádná kvalitní studie porovnávající jejich schopnosti sice k dispozici není, ale na první pohled je vidět, že fulltext Seznamu je bez problému použitelný. Pokud nebude celý koncept, na kterém je dnešní vyhledávání postaveno, zničen SEO spamem, Seznam by neměl mít problém držet se v závěsu. Samozřejmě nemalým problémem může být globální dosah Googlu, ale pro většinu lidí je českojazyčný Internet obehnán nepřekonatelnou zdí.
Způsobem, jak se odlišit, je vertikální vyhledávání. Mapy, zprávy, video, zboží, fakta atd. Vertikální vyhledávání nabízí ohromné pole pro zlepšování celkové kvality internetového hledání. Klasický fulltext prochází tuny stránek, indexuje jejich obsah a pomocí trochu obskurních metod nějakým způsobem vypočítá, co se nakonec člověku objeví ve výpisu hledání. O obsahu stránek neumí zjistit nic víc, než že obsahuje taková a taková slova. O jejich kvalitě, pravdivosti a zajímavosti také nic neví, maximálně si zjistí, kdo na ně odkazuje. Kdyby to tak pěkně už mnoho let nefungovalo, zdál by se celý koncept dnešního vyhledávání směšný.
Vertikální vyhledávače mohou pracovat jinak. Data mohou získávat, vyhodnocovat a prezentovat takovým způsobem, který se pro ten specifický účel nejlépe hodí. Dotaz „gyros v Brně“ vám při prohledání webu nabídne 10 odkazů na blogy, diskuse a snad i restaurace. Pokud hledáte v mapách, teoreticky by vám měl ukázat, kde v Brně gyros dělají, jaký mají kontakt, jak se k nim dostanete a možná i to, co si o onom podniku myslí ostatní. A to díky tomu, že mapy získávají strukturovaná data přímo od firem. Úplně stejné to je u jakéhokoliv jiného vertikálu.
Řadu vertikálních vyhledávacích služeb neprovozuje jen Seznam, ale i ostatní české portály a samozřejmě Google. Výrazné pozornosti se těší online mapy, pravděpodobně díky svému přirozenému napojení na databázi firem. Z té českých portálům stále plynou nemalé příjmy a kvalitní mapy jsou prostředkem, jak si platící živnostníky udržet. Mapy od Seznamu, Amapy Atlasu a Supermapy Centra jsou po všech stránkách opravdu dotažené. Lokalizované Google Maps budou mít těžkou pozici. Podstatně vyšší zdroje Googlu sice poskytují jistý technologický náskok, ale české portály mají jinou konkurenční výhodu. A to dlouhodobě budovanou databázi firem a širokou obchodní síť. Google bude mít hodně práce s tím, aby každého malého živnostníka přiměl přidat jeho obchod do svých map.
Všechny vyhledávače včetně Googlu také umí hledat obrázky. Zajímavý postup zvolil Seznam, který si licencoval technologii Picsearch. Díky tomu umí hledat na celém Internetu. Obrázky jsou z principu dosti internacionálního charakteru, „česká“ fotka Big Benu se nijak neliší od „anglické“. Zpočátku měl Picsearch problém s diakritikou. Háčky a čárky jednoduše ignoroval, a zaměňoval tak některá česká slova s anglickými. Příkladem byl dotaz „říše“, který si Picsearch zpracoval jako „rise“ a vracel naprosto nesouvisející výsledky. Nyní je však již tato chyba napravena. Nedávný minitest Pavla Housera na Lupě přesto vyhrál Google. Na úrovni Seznamu se naopak drželo Jyxo (které využívá i Atlas) a Centrum, ačkoliv minimální rozsah testu nedává závěru velkou autoritu.
Dalším typem hledání, které se těší velké péči, je prohledávání obchodů a nabídky jejich zboží. Google Products (dříve Froogle) zatím českou verzi nespustil, hlavními soupeři jsou tedy Seznam, Centrum a Jyxo, které běží i na Atlase. Existuje však i řada dalších podobných služeb, které neprovozují žádné velké portály. Nadějný koncept rozvíjí Miton se službou Heureka, která v mnoha ohledech jde podstatně dále než portály. Ty fungují všechny velmi podobně. Přímo od obchodů získávají v XML formátů detaily o jejich nabídce, zejména název a cenu. Výsledky umí řadit podle ceny nebo jakési „relevance“. O samotných produktech a obchodech toho však mnoho nevědí. Vyhledávač Googlu disponuje jistými zákaznickými referencemi, Seznam obchody hvězdičkuje podle parametrů typu dostupných platebních metod apod.
Vyhledávání článků je u českých portálů relativně nová věc. Ne snad, že by neexistovalo již dlouho. Ale protože Seznam, Centrum a i Atlas nějaké vlastní zpravodajství nabízejí, chyběla motivace umožnit lidem hledat i jinde. Dnes je odkaz na hledání článků na titulní stránce všech portálů, ačkoliv na Seznamu a Centru je schováno v doplňující nabídce. Atlas ovšem nabízí pouze hledání na svých aZprávách. Centrum umožňuje omezit hledání na poslední dny či měsíc a v dalším nastavení též prohledávání konkrétních zdrojů nebo kategorií. Zajímavou funkci mají Články.cz od Seznamu, které pomocí flashového posuvníku umí velmi jednoduše filtrovat zprávy z jistého období. Uživatelům též nabízejí placený přístup k archívu medií. České Google News se podle šéfky tuzemské pobočky Googlu objeví již brzy, přesnější datum však odmítla určit.
Všechny světové vyhledávače experimentují se „znalostním“ vyhledáváním. Některé otázky je možné odpovědět přímo. Uživatel chce nějakou jednoduchou informaci a nemá smysl hovořit o relevanci – buď se onen fakt dozví, nebo ne. Součástí PR menších vyhledávačů jsou demonstrace jejich schopnosti odpovídat na otázky typu: „Kolik váží slon?“ Zatím jsou však spíše na okraji vývoje, protože podobných otázek je nesčetně mnoho a poskytovat instantní odpovědi je obvykle možné pouze manuálním nastavením. Vyhledávače nedisponují žádnou umělou inteligencí, takže ve skutečnosti „nevědí“, kolik slon váží. Existují však i jiné věci, které lze snadno okamžitě odpovědět. Kurs měn, aktuální cena akcií a celá řada dalších.
Samotnou kapitolou je Wikipedie, resp. encyklopedie obecně. Nemalá část dotazů je typu: „Co je to kvazikonkávnost?“ nebo „Kdo to byl Paul von Hindenburg?“ Wikipedie disponuje obsáhlou, strukturovanou odpovědí. Není divu, že některé vyhledávače čistě pro ni nabízejí vertikální hledání. Kromě toho se samozřejmě články z Wikipedie umisťují velmi vysoko i v klasickém fulltextu. Česká Wikipedie ještě takovou univerzální studnicí vědomostí není. Počet jejích článků však někdy počátkem příštího roku přesáhne 100 000 a její význam bude narůstat. Nic neponechal náhodě Seznam, který využil její otevřené licence a na Seznam Encyklopedii vytvořil její kopii. Ta obsahuje materiál i z dalších zdrojů – konkrétně z CoJeCo a Ottovy encyklopedie.
Výrazným médiem, které na webu získává stále větší prostor, je video. Kvůli svému charakteru je jeho vyhledávání obtížné, obsah videa zatím nikdo neumí pořádně analyzovat. V současné době jej v Česku umí hledat jen Jyxo. Ovšem pouze, pokud je na webu umístěno v nějakém z obvyklých formátů, což nezahrnuje flash. Přitom většina atraktivního obsahu je dnes právě ve flashi. Nelokalizované Google Video prochází videa, která jsou uloženo přímo na něm nebo na sesterském YouTube. Začíná přidávat i další videoportály (MySpace, Metacafe atd.), zaznamenáno bylo i indexování klasických videosouborů. Jelikož neindexuje flashové video napříč Internetem, ale jen na přímo vybraných místech, umí o něm zjistit hodnocení i další informace. Chybějící videovyhledávač je nemalou slabinou Seznamu. Jelikož jeho webový vyhledávač indexuje jen české stránky, veškerý obsah na YouTube mu je ukrytý. Není divu, že toho řada lidí využívá a optimalizuje své stránky na názvy nejoblíbenějších děl. Uvidíme, jak Seznam dokáže tuto slabinu vyřešit nákupem Streamu.
Jeden vyhledávač, deset tváří
Vertikální vyhledávání znamená možnost, jak kvalitu odpovědí posunout na výrazně lepší úroveň. Uživatelé ale nakonec stejně většinou zůstávají u toho jediného formuláře s velkým tlačítkem. Je proto na vyhledávačích, aby dokázaly všechny typy výsledků integrovat do jednoho rozhraní, aby dokázaly odhadnout, jaký obsah uživatel svým dotazem hledal. Google se stal vzorem pro ostatní svým „OneBoxem“, tedy umisťováním odkazu na vertikální vyhledávání na první pozici výsledků, pokud bylo pravděpodobné, že by o něj mohl mít uživatel zájem. Podobné tipy tak běžně používají i tuzemské vyhledávače. Aktuálním trendem je integrovat informace z dalších typů vyhledávání daleko intenzivněji. Google uvedl Universal Search, který v praxi znamená, že obsah původního OneBoxu se v rozšířené podobě může objevit na jakékoliv pozici výsledků. Místo deseti odkazů s krátkým popiskem jsou výsledky na některé dotazy plné map, přímo přehratelných videí, grafů vývoje cen akcií atd. Ještě mnohem dále jde Ask, které zcela překopalo standardní rozvržení stránky a „rozlámalo“ ji na několik částí podle typu obsahu. Hledáte-li třeba jméno jistého hudebního interpreta, vedle klasických webových výsledků vám Ask ukáže několik fotek, poskytne základní popis, seznam alb atd.
To zatím Seznam, Centrum ani Jyxo v tak rozsáhlé podobě neumějí. Ostatně Yahoo, Windows Live a vlastně i Google se divokým změnám vyhýbají. V českém Googlu navíc Universal Search nemá velký význam, jelikož většina důležitých vertikálních vyhledávačů zatím nebyla v českém prostředí spuštěna. Až se tak ale stane, poskočí pravděpodobně kvalita Googlu o podstatný kus nahoru. Je otázkou, jestli se mezitím Seznam bude schopen vyšplhat na stejnou příčku.
Další cestičky
Další možností, jak kvalitu vyhledávání vylepšit a získat konkurenční výhodu, je integrace různých databází. Na Internetu existuje řada prostředníků, kteří fungují jako tržiště mezi prodejcem a zákazníkem. Mohou to být klasické inzeráty, prodejci realit, online cestovní agentury apod. Řada z nich je sama závislá na návštěvách z vyhledávačů. Zdá se být proto pro vyhledávače přirozeným krokem tyto prostředníky odstřihnout a jejich roli převzít. Google cosi takového nesměle testuje v podobě Google Base. Na dotazy typu „los angeles housing“ se na prvním místě vyhledávání občas objevoval formulář na poskytnutí dalších údajů. Uživatel mohl vyplnit, jakou si představuje cenu, zda má zájem o nákup nebo podnájem atd. Následně byl přesměrován na výpis inzerátů v Google Base. K ostrému nasazení však zatím nedošlo. Google by tím mohl přijít o inzerci právě těchto serverů, kterým by začal konkurovat, proto asi to váhání. Z českých vyhledávačů nikdo nejeví tendence k něčemu podobnému. Přesto, že zvláště Seznam provozuje úspěšné inzertní servery, a má tedy bohatou databázi, které by mohl využít. Zatím však maximálně ve vyhledávání protežuje vlastní stránky a bez ohledu na „reálné“ výsledky je tlačí na první pozici. Těžko říci, jakou negativní reakci by masivnější propagací svých databázových služeb vyvolal.
Zatím nenaplněnou prognózou je úspěch „sociálního vyhledávání“. Pod tento termín se schovává celá řada doufajících start-upů, nicméně za základ můžeme označit participaci uživatelů. Prototypem by mohlo být Delicious. Uživatelé této záložkovací služby denně ukládají, štítkují a popisují možná milióny stránek. Tyto údaje se nabízejí jako nezávislý zdroj informací o daném webu. Klasické fulltexty umějí pouze zaznamenat, co se na stránkách píše, a kdo na ně odkazuje. Oboje je mimořádně snadno manipulovatelné. Na populárních frázích proto často úspěšně parazitují zcela neužitečné weby, jejichž tvůrce však dokázal dané klíčové slovo na svou stránku nacpat v dostatečné frekvenci a získat potřebné množství (často placených) zpětných odkazů. Robot je oklamán, jakýkoliv člověk by přitom nesmyslnost oné stránky snadno odhalil. Problémem záložkovacích služeb je však ten samý: spam. Pokud by na službách typu Delicious začalo opravdu záležet, SEO spameři by na ně pořádali nájezdy. Je otázkou, zda-li by se tomu dalo bránit. Jestliže by záložkovalo opravdu hodně lidí, byl by systém dostatečně robustní a odolný vůči podobným atakům. Uživatelé by také mohli získávat různé váhy podle své důvěryhodnosti postavené na jejich minulých záložkách. Yahoo však Delicious koupila před dvěma lety a zatím jej – pokud je známo – ve svém fulltextu nevyužívá. Asi pro to nenazrála ta správná chvíle. Ovšem do kuchyně vyhledávačů vidí jen málokdo. Není vyloučené, že nějakým způsobem zpětnou vazbu svých uživatelů využívají, například analýzou z lištiček.
Jiným způsobem na lidech staví Mahalo. Není klasickým vyhledávačem, jelikož veškeré odkazy dávají dohromady placení editoři. Tím je pochopitelně omezen počet zpracovaných dotazů, Mahalo míří čistě na skupinu nejhledanějších frází. Věří, že manuální prací dokáže udržet kvalitu vybraných dotazů na lepší úrovni, než jaké kdy může dosáhnout jakýkoliv robot. Dojmy jsou spíše rozpačité. Není jasno, jak má Mahalo obstát vedle Wikipedie, která také disponuje celou řadu odpovědí na nejpopulárnější dotazy. Navíc něco obdobného Mahalu již kdysi dělalo About.com – bez zásadního dopadu. Přesto ruční zásahy do vyhledávání nejsou ničím okrajovým. I Google si údajně platí armádu lidí, kteří prostě jen procházejí jeho fulltext a hodnotí kvalitu výsledků.
Bude horko
Karty jsou na českém vyhledávacím trhu jasně rozdány. Reálně na něm zůstává pouze Seznam a Google. Zda-li si Seznam svou výbornou pozici dokáže v příštím roce udržet, ukáže pravděpodobně již příští měření. Jestli bude schopen vzdorovat trvale, záleží na jeho schopnosti nezmeškat žádnou zásadní proměnu, kterou vyhledávání projde.