Robot Google se zkouší ponořit do hlubokého webu, zůstává ale na povrchu

24. 4. 2008

Doba čtení: 5 minut

Indexovací robot Google se nově pokouší prokutat do hlubin toho, čemu se někdy říká Deep Web – tedy do těch částí Internetu, které byly dosud vyhledávačům a tudíž i většině uživatelů skryty. Podívejme se, co přináší tento konkrétní krok, ale také na to, jaké dosud skryté končiny webu se tak mohou otevřít.

Informace (Lupa, Computerworld.com), jak přesně budou nové metody indexace Googlu fungovat, se podle zdrojů poněkud liší. Podle blogu Google budou hlavním novým cílem robota rozevírací formuláře, které se někde používají například pro zeměpisnou navigaci. Tenhle typ budování „odkazů“ mezi stránkami se samozřejmě nedoporučuje a dnes už ani moc nepoužívá, je nevýhodný z marketingového hlediska právě kvůli vyhledávačům.

Lze ale poněkud pochybovat o tom, že by se tímto způsobem uživatelé ve větší míře dostali k nějakým skutečně novým stránkám. Kupříkladu zeměpisnou navigaci používaly nejspíš firmy, jejichž stránky byly tak či onak nějak dostupné i odjinud a rozlezlé po více zemích světa. Výsledně si mohou provozovatelé polepšit v očích PageRanku, to je ale tak všechno (nadto i informace o tom, jak se bude s nově objevenými stránkami zacházet v rámci PageRanku, se liší).

Doplň, zadej, hledej…

Nepůjde ovšem jen o rozevírací seznamy. Robot Googlu začne zaškrtávat různá políčka a klikat na tlačítka. Do volných políček bude Google také zkoušet vkládat slova, která našel na stránce a zkoumat, jaká bude odpověď serveru (takže vlastně bude generovat třeba vyhledávací dotazy).

Složitější formuláře přitom robot podle vlastních informací Googlu vyplňovat nebude, nebude lámat grafické kontrolní kódy CAPTCHA ani tipovat uživatelská jména, hesla nebo ID. Zkusí jen pár dotazů, nezahltí server hromadou požadavků, například vyhledávacích. Robot se bude rozhodovat mj. dle toho, zda je k odeslání dat použita metoda GET nebo POST. I tak se sice objevují komentáře, že některým webmasterům může robot Googlu komplikovat život, nicméně podobné kroky už stejně prováděli roboti jiní – a mnohem méně přátelští.

Google prohlašuje, že stránky, k nimž se tímto způsobem dostane, nejdřív porovná se svojí databází (přičemž se nejspíš zjistí, že obsah už má – viz výše). Pokud narazí na rozdíl, bude se stránkou dále pracovat; nejdřív zjistí, zda vůbec jde o nějak relevantní obsah – asi nemá cenu indexovat stránku obsahující odpověď na vyhledávání, že bohužel nic nalezeno nebylo; totéž se týká chybových hlášek při odeslání nesmyslných údajů. Jak se dál takový obsah nebo stránka bude řadit ve výsledcích vyhledávání, to ale zatím není příliš jasné.

Co se stane v případě výsledků vyhledávání? Tady robot najde stránku, kterou téměř jistě v databázi nemá (totiž odpověď na konkrétní vyhledávací dotaz). Tímhle způsobem by množství stránek (spíše „stránek“) v databázi vyskočilo explozivně prakticky k nekonečnu, bez toho, že by se uživatelé dostali k nějakému novému obsahu, Google si to jistě nějak ošetří.

Také není nutné zatěžovat server stále novými vyhledávacími dotazy. Stačí se podívat na způsob, jakým se generuje URL, a další stránky zkoušet přímo podle adresy. To lze mimochodem použít i tam, kde jsou třeba články generovány s URL nějak odpovídajícím číselnému ID článku – pak stačí zkoušet adresy podle čísel. U různých slovníků či encyklopedií bez existence „statických“ stránek jde zvolit obdobné metody.

Zde už se zdá, že by se Google k novému obsahu dostat mohl, a to nejen u dynamicky generovaného obsahu typu slovníků. Řada serverů má s přístupem ke starším článkům přes hyperlinky totiž problémy. Změnil se třeba publikační systém a odkazy zmizely, starší archiv se při proměnách webu „odpojil“, nebo je třeba kromě vyhledávání přístupný jen přes konkrétní adresy zveřejněné kdysi v tištěné verzi média. Nicméně na vlastním serveru třeba obsah stále zaindexován je a Google se k němu takhle může dostat. Informací tohoto druhu může být nakonec i docela dost a Google tak pomůže těm, kdo mají web v nepořádku – a trochu snad i uživatelům.

Ale přeceňovat se to nedá. Robot nezahltí vyhledávání a zkusí jen slova přednostně se objevující na stránce. Výsledek bude prostě mix „běžného“ obsahu (jak by to dopadlo, kdybyste na serveru o IT teď zadali něco jako „Windows Vista Service Pack?“).

Hluboký web: co všechno obsahuje?

Vypadá to tedy, že konkrétně tento krok asi žádný zvláštní význam mít nebude, ale obecně se jedná o vývoj velice zajímavým směrem, do vod temných a neprobádaných, ale zřejmě velmi rozlehlých. Wikipedia uvádí, že deep web výrazně objemem dat přesahuje to, co vyhledají vyhledávače – řádově snad až tisíckrát. Pravda, není úplně jasné, jak se něco takového počítá, zda se tím míní opravdu jen web (a nikoliv třeba filmy z výměnných sítí), apod. Z hlediska uživatele by asi bylo zajímavější to zkusit srovnat podle výlučně textového obsahu. Nicméně odhady jsou to stejně jen velmi zkusmé, když jednu ze stran poměru z definice neznáme.

Když se ještě trochu zamyslíme nad pojmem deep web, napadne nás jistě celá řada otázek. Tak třeba: Jedná se o izolované stránky, na něž nevede žádný odkaz, nebo Internet není „souvislý“ a obsahuje větší ostrovy oddělené od hlavního kontinentu? O souvisejících vlastnostech sítí jsme ostatně psali i na Lupě: Internet: Pravidla růstu, uzly a vzdálenosti v síti, Internet je zranitelnější, než se zdá či v článku Internet není vůči cíleným útokům odolný (Science World).

Wikipedie na výše uvedeném odkazu mimochodem popisuje i první pokusy vyhledávačů nějak indexovat tu část pavučiny, na kterou nevedou hyperlinky. Uvádí se zde pokus Yahoo Subscription v roce 2005, kdy bylo snad poprvé umožněno robotovi indexovat i obsah jinak určený jen předplatitelům (ona ovšem ta přístupnost může být různá, třeba jen z počítačů v akademické doméně nebo v určitém regionu – je to pak deep web, nebo ne?). Zmíněn je zde také vyhledávač přímo specializovaný na přístup k deep web (ScienceGov) a další projekty tohoto druhu.

Do deep web se dá zařadit celá řada obsahu různého typu. Technické chyby, kdy je namísto normálního hyperlinku použit formulář, nebo nějaký javascriptový či flashový fígl jsou jen jednou a nejspíš zanedbatelnou částí tohoto takřka bezedného prostoru. Najdeme zde placené stránky (nebo opět – stránky přístupné jen z akademické sítě, jen z určitého regionu, volně jen po určitou dobu atd.) nebo obsah ve formátech, který vyhledávače nejsou schopny indexovat. Každá z těchto kategorií bude vyžadovat jiné přístupy, až po třeba metody rozpoznávání řeči, které by mohly vyhledávačům umožnit indexovat audiobsah. Otázka ale je, zda by se to vyplatilo. K části deep webu by jistě rády získaly přístup vlády, hlavně když jde o aktivity skryté záměrně pro svůj kriminální obsah. Proč se tím ale měl zabývat komerční vyhledávač?

Kromě toho, že slušný robot by neměl indexovat data, kde si to uživatelé nepřejí (a zapomněli to zdůraznit v robots.txt), je velká otázka, zda by pak vyhledávač uživatelům mohl poskytnout lepší služby. Už teď nejde ani tak o to zahrnout do databáze co nejvíc zdrojů, ale spíše je umět nějak inteligentně zpracovat. Nakonec poslední krok Googlu tak lze chápat spíše jako službu několika správcům než uživatelům.

Stále ale platí, že být k nalezení je až na výjimečné okolnosti věcí a zájmem především samotných provozovatelů serverů.

Myslíte si, že tento "hlubší způsob vyhledávání" pro vás bude přínosný?

Vstoupit do diskuse (26 názorů)

Pavel Houser

Autor je redaktorem Sciencemag.cz.

Témata:

Takový veselý chlapík bude v tom případě implicitně na blacklistu u všech mnou provozovaných webů. Akorát trocha práce navíc, výsledek nula. K čemu že to všechno? X let se tvůrci stránek učí optimalizovat pro vyhledavače (a nelžeme si, je to hlavně pro Google) a tím mu práci usnadňovat a zároveň dávat najevo, že stojíme o to, aby nás indexoval. A teď se nakonec Google přizpůsobí a to takovým způsobem, že začne všechny obtěžovat? Vydělají na tom jenom ti, kteří na Google až doteď kašlali. Abych…

Ondrej Páleš

Sdílet

Doplň, zadej, hledej…

Hluboký web: co všechno obsahuje?

Myslíte si, že tento "hlubší způsob vyhledávání" pro vás bude přínosný?

Autor článku

Pavel Houser

Témata:

Anketa

Měl by se OSA platit poplatek z do Česka dovezených chytrých telefonů?

Jurečka mate začínající OSVČ, odpuštění záloh se netýká zdravotního pojištění

Na návštěvě v České poště a v její Balíkovně. Podívejte se pod pokličku největšího třídicího centra

Antihmota jako nejlepší palivo pro cestování do vesmíru? Teorie vypadá slibně, realizace ale zabere…

Rok 2024 ve světle legislativních změn pro zaměstnavatele

Tyhle věci nezapomeňte do konce roku udělat, ušetřit vám to může tisíce. A s čím naopak počkat na…

Mladá generace roste do nebezpečné doby umělé inteligence, říká Valenta ze Vzdělávání budoucnosti.…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

Zaměstnanec si sám rozhodl o čerpání dovolené. Měl na to právo, stejně ale dostal vyhazov na hodinu

Kde se plní přání dětem i dospělým. Santova vesnička v Laponsku nabízí jízdu sobím spřežením a…

Robot Google se zkouší ponořit do hlubokého webu, zůstává ale na povrchu

Sdílet

Doplň, zadej, hledej…

Hluboký web: co všechno obsahuje?

Myslíte si, že tento "hlubší způsob vyhledávání" pro vás bude přínosný?

Autor článku

Čtěte dále

Anketa

Měl by se OSA platit poplatek z do Česka dovezených chytrých telefonů?

Podcast

Mohlo by vás zajímat

Z našich webů

Jurečka mate začínající OSVČ, odpuštění záloh se netýká zdravotního pojištění

Na návštěvě v České poště a v její Balíkovně. Podívejte se pod pokličku největšího třídicího centra

Antihmota jako nejlepší palivo pro cestování do vesmíru? Teorie vypadá slibně, realizace ale zabere…

Rok 2024 ve světle legislativních změn pro zaměstnavatele

Tyhle věci nezapomeňte do konce roku udělat, ušetřit vám to může tisíce. A s čím naopak počkat na…

Mladá generace roste do nebezpečné doby umělé inteligence, říká Valenta ze Vzdělávání budoucnosti.…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

Zaměstnanec si sám rozhodl o čerpání dovolené. Měl na to právo, stejně ale dostal vyhazov na hodinu

Kde se plní přání dětem i dospělým. Santova vesnička v Laponsku nabízí jízdu sobím spřežením a…

Dále u nás najdete

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Šťastné a veselé, globální výdaje na IT vzrostou bezmála o desetinu

Zdravotní pojištění nebude začínajícím OSVČ odpuštěno

Rekord Lindy Bartošové. Slast je na Wave nejúspěšnější

Experti zpochybnili pilíř, podle kterého se hodnotí zranitelnosti

Pár triků, díky kterým dokážete letos o Vánocích nepřibrat

Google Agentspace zpřístupní AI agenty pro zaměstnance

Gynekologie zavedla poplatky, pacientky si to nenechaly líbit

Rok 2024 ve světle legislativních změn pro zaměstnavatele

Úřad a zpracovatelé masa chtějí, ať se vege párky a rostlinné burgery jmenují jinak

Hranolky, pizza, tatarák: příběhy pokrmů jsou často vymyšlené

Nestrkejte mrtvolu do auta, když kolem jede Google Street View

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Dění v Rumunsku testuje vztah Evropy k online platformám

Firma se vyhnula pokutě za nepodání kontrolního hlášení

Intel vydal slušnou grafickou kartu Arc B580

Nové HDMI 2.2 už je za rohem

Češi vyslali svařovacího robota do vesmíru

Operátoři testují nástroj proti podvrženým mobilním číslům