Dušan Janovský: Seznam zůstane jedničkou i nadále

27. 5. 2010
Doba čtení: 6 minut

Sdílet

Logo NetClub Autor: 74287
Logo NetClub
Hostem květnového NetClubu byl Dušan Janovský, vedoucí týmu vyhledávacích služeb společnosti Seznam. Prozradil například, jak velký tým se stará o fulltext, či proč ze Seznamu odešel, aby se přes Google vrátil zpět. Optimalizace pro vyhledávače se dá shrnout do jediného pravidla, které platí v dlouhodobém horizontu: „Co je dobré pro uživatele, je dobré i pro vyhledávače,“ říká Dušan Janovský.

Proč se zrovna v zemi jako je Česko, vyvíjí úspěšný vyhledávač Seznamu?

Tuto otázku si samozřejmě klade spousta lidí. Česko bylo dlouhou dobu pomyslnou mocností v oblasti vyhledávačů. Kromě Seznamu tady byly přinejmenším další čtyři, pět solidních vyhledávacích strojů, což v jiných zemích, pominu-li Rusko, není úplně běžné.

Čím to ale bylo způsobeno?

Jedním z těch důvodů mohla být skutečnost, že vysoké školy, zejména Matematicko-fyzikální fakulta UK a FEL ČVUT, se zabývaly zpracováváním jazyka. V okamžiku, kdy se vytvořil určitý „rybník“ vyhledávačů, tak začala fungovat přirozená konkurence, a uživatelé si zvykli přecházet navzájem mezi jednotlivými vyhledávači.

Jak dlouho ještě bude Seznam jedničkou na českém trhu vyhledávačů?

Je spíše otázkou, proč by se to někdy v budoucnu mělo měnit. Seznam je tu minimálně po deset let nejpoužívanějším vyhledávačem. Trendově není důvod, proč by mělo dojít ke změně.

Víte jistě, že čeští uživatelé využívají pro vyhledávání více Seznam než například Google?

Google samozřejmě konkrétní čísla nezveřejňuje, ale podle všech dostupných statistik a výzkumů drží Seznam nadpoloviční podíl ve vyhledávání.

Logo NetClub
Hostem červnového setkání NetClubu bude Jan Mühlfeit, Chairman Europe, Microsoft Corporation.Re­gistrovat se můžete už nyní. Fotogalerie z předchozích setkání naleznete na NetClub blogu.

Je možné porovnat, v čem je Seznam ve vyhledávání lepší než Google a naopak?

Google například lépe zvládá delší dotazy, Seznam je zase lepší na ty kratší.

Jak vlastně funguje samotný vyhledávací stroj, kdybyste princip jeho fungování měl vysvětlit úplnému laikovi?

Vyhledávač má databázi stránek, kterou si stáhl z Internetu a následně na těchto stránkách hledá určité věci, které nazýváme „signály“. O každé stránce nasbírá nějaké množství signálů, následně je smíchá a vyjde mu pořadí. Všímá si samozřejmě, zdali se hledaná slova na stránce nachází, v jakém kontextu, hodnotí obecnou kvalitu stránky atd.

Dušan Janovský - NetClub 3

Když firma vyvíjí vlastními silami vyhledávání, tak může do značné míry ovlivnit to, co lidé prostřednictvím vyhledávače najdou. Máte v tomto smyslu docela velkou moc…

Ta moc je opravdu velká, ale nelze ji ve skutečnosti použít. Snažíme se, aby veškeré procesy byly plně automatické, což vyplývá z podstaty věci, kdy indexujeme přibližně 350 milionů českých stránek. V takovém množství materiálu se jednoduše nedá „přehrabovat“ ručně a nějakým způsobem například upravovat pořadí výsledků.

Někdy ale přece jen musíte do výsledků manuálně zasáhnout, nebo ne?

Ve výjimečných případech, když je zřejmé, že je na stránkách nějaká „čertovina“, kterou nemá vyhledávací robot šanci objevit, typicky skrytý text, tak zasahujeme ručně. Většinou je v tom záměr tvůrce stránek poskytnout vyhledávači jiné informace než uživateli.

Kolik lidí se v současné době podílí na vývoji vyhledávání v Seznamu?

Na vyhledávání pracuje přibližně 13 programátorů, rozdělených do třech týmů, které se nachází v Českých Budějovicích, Brně a Praze. Dále máme čtyři návrháře, kteří navrhují nové algoritmy. Například hledají na stránkách nové signály, které bychom mohli v budoucnu použít. Signálem je třeba to, jak často se vyhledávané slovo vyskytuje na konkrétní stránce. Máme také tři výzkumníky, kteří jsou sdílení pro celý Seznam, ale v současné době se věnují především fulltextu. Tři lidé pracují jako administrátoři fulltextu. Ti prochází databázi stránek, reagují na dotazy, kontrolují výsledky a mohou banovat čertoviny. Nesmíme také zapomenout na linuxové administrátory, kteří se starají o chod serverů.

Dušan Janovský - NetClub 1

O kolik serverů se ve skutečnosti jedná?

Jednotlivé servery mají samozřejmě různé úlohy, ale pokud to hodně zjednoduším, tak se bavíme přibližně o 200 serverech. To je hardware pro vyhledávání Seznamu.

Jaký je rozpočet oddělení fulltextu v Seznamu?

Řádově se jedná o desítky milionů korun ročně.

Je to suma, která se Seznamu vyplatí?

Naprosto určitě.

Jak se vyrovnáváte s tím, čemu se dnes říká „vyhledávání v reálném čase“? Pracujete na tom?

Pracujeme stále a pracujeme na všem. V současné době děláme zásadní technologický upgrade crawlera. Snažíme se velmi rychle prohledávat zpravodajství, to máme do deseti minut. Máme „fresh svazky“ často aktualizovaných zdrojů.

Kolik dotazů uživatelé denně na Seznamu zadají?

Přibližně jde o 18 milionů dotazů.

Opisujete od Google? Snažíte se prokouknout jejich algoritmus?

Od Google se opisuje velmi špatně. Každý, kdo se zabývá optimalizací pro vyhledávače, by chtěl znát jejich algoritmy. Jenže Google zpřístupňuje všechny informace na světě kromě těch vlastních. Jejich algoritmy nejsou veřejné, stejně tak jako nejsou veřejné algoritmy ostatních vyhledávačů.

Dušan Janovský - NetClub 2

Co si myslíte o fenoménu sociálních sítí? Nevytváří na webu prostor, kam se vyhledávače jednoduše nedostanou? Neznervózňuje vás to?

Osobně mě to neznervózňuje. Například Facebook je pro mnoho lidí přitažlivý právě proto, že se tam vyhledávače a neregistrovaní uživatelé nedostanou k veškerému obsahu. Facebook je samozřejmě velice zajímavý fenomén. Před patnácti lety si lidé dělali vlastní stránky v HTML. Ale ani dnes se nedá HTML stránka vytvořit úplně jednoduše. Facebook jim to nabízí komfortně, v podstatě již hotové, a rovnou jim to propojuje s lidmi, což je vlastně ten hlavní důvod, proč lidé stránky vytváří. Má to samozřejmě i odvrácenou tvář, kdy komunikace přes webové stránky se díky sociálním sítím může začít postupně ztrácet.

Používáte Facebook jako uživatel?

Převážně na něm čtu zprávy, které mi tam lidé píší.

Kdy jste vlastně začal poprvé objevovat web?

Měl jsem štěstí, že jsem úplně do té první vlny, když se začal rozjíždět web, vůbec nenahlédl. Začal jsem se o něj zajímat až v době, kdy přicházel Internet Explorer 3, který už podporoval kaskádové styly, a to mně umožnilo získat náskok před těmi, kteří se tomu už dva, tři roky věnovali a byli „zabetonovaní“ v HTML 2.0 a 3.1. Já jsem se to učil rovnou se styly. Načež jsem o tom začal dělat stránky Jakpsátweb. A později jsem se pustil do stránek o cestování.

Dušan Janovský - NetClub 4

Hlásí se ti, kdo používají pro vyhledávání primárně Google.

Napomáháte svým stránkám tím, že je na Seznamu posunete ve výsledcích trochu výš?

Nepomáhám, ony jsou vepředu i tak. A jsou na dobrých pozicích i na jiných vyhledávačích. Jednoduše vím, jak na to – mozek si prostě nesmažu.

V Seznamu jste se poprvé objevil v roce 2002?

Ano. V roce 2002 jsem nastoupil do Seznamu na pozici webmastera. Společně s Petrem Vraníkem a Lukášem Plíhalem jsme celý Seznam přepisovali do kaskádových stylů. Po dvou letech jsem začal pracovat jak projektový manažer.

Pak jste ale ze Seznamu odešel. Přestalo vás to bavit?

Nechtěl jsem ohrozit připravovaný projekt fulltextového vyhledávání. Navíc mě nebavilo dojíždět ze Slaného. Denně jsem trávil tři a čtvrt hodiny cestováním.

Co jste dělal potom?

Jen tak z legrace jsem překládal Google Adwords. Po nějakém čase mě oslovili, jestli bych to nezvládl rychleji a začali mi za to platit.

Éra práce pro Google trvala jak dlouho?

Do roku 2006, kdy jsem opět nastoupil do Seznamu. Zakládal jsem oddělení administrátorů fulltextu a měl jsem za úkol připravit Sklik.

V posledních letech je trendem prolinkovávání webů, existuje nějaká hranice, kdy je tento přístup z hlediska vyhledávacích robotů akceptovatelný a kdy už nikoliv?

Optimalizace pro vyhledávače se dá shrnout do jednoho jediného pravidla, které platí v dlouhodobém horizontu: „Co je dobré pro uživatele, je dobré i pro vyhledávače.“

Jakým způsobem bojujete například proti uměle vytvářeným odkazům?

Neřeknu vám, jak náš vyhledávač přesně funguje a co a jak vyhodnocuje, protože to dává lidem, kteří ho chtějí oklamat, návod – alespoň maličký, ale návod. Ale mohu říci, že se této problematice intenzivně věnujeme.

MM 25 baliček

Je těžké dostat odkaz na konkrétní stránku na první pozici ve vyhledávání?

Všechno je samozřejmě otázka finančních prostředků. Naším úkolem je lidem, kteří se snaží dostat na vyšší pozice, to co nejvíce zdražit. Jde o to, aby se takovým lidem vyplácelo investovat peníze do zlepšení čitelnosti a rychlosti stránek. To nám v konečném důsledku velmi pomáhá. Vyhledávače jako takové, se sice zevnitř vyvíjí zásadním způsobem, ale zvenku to tak nevypadá. Podstatný komfort, který uživatel na Internetu získává, nezískává kvůli vyhledávačům, ale kvůli stránkám, které firmy a lidé tvoří.

Který vyhledávač primárně používáte?

Autor článku

Internetové novinařině se věnuje od roku 2005, kdy začal jako redaktor pracovat pro vydavatelství Internet Info.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).