Nouzi o služby, které přinášejí webové odkazy na články českých novin, nemáme. Internetoví trilobiti si možná vzpomenou na Trafiku, kde se shromažďovaly články z novin ještě před vznikem zpravodajských serverů, jak je známe dnes. V současné době si můžete vybrat z mnoha možností. Namátkou mě napadá Právě dnes, Volný Noviny, Novinky – Deníky, Headlines, News Centrum, Jyxo Články… Ale server srovnatelný svou kvalitou s agregátorem zpráv Google News tu chyběl. Nyní to vypadá, že by očekávání českých „googlenews“ mohl splnit projekt Jiřího Lahvičky Nový den.
Většina agregátorů zpráv funguje na principu syndikace odkazů. To znamená, že v pravidelných intervalech stahují ze serverů soubory, které buď mají formát XML, nebo odvozený z CSV. Výjimku tvoří snad jen výstřižkové služby a zpravodajské agentury, které přijímají obsahy zpráv na základě smluv ve vlastním definovaném formátu – tak to funguje především u tištěných předloh. Něco mezi tím podnikají Jyxo a Centrum, které sice vycházejí z exportních souborů, ale zároveň indexují webové stránky.
Lahvička má k exportním formátům nedůvěru, a proto se vrhnul na dekonstrukci webových stránek zpravodajských serverů. Pro nás, vyznavače sémantického webu, je to těžká rána, ale v současné chvíli Lahvičkův přístup jako jediný splňuje představu o automatickém shlukování a hierarchizaci zpráv. Z exportního souboru totiž těžko poznáte, jakou váhu zpravodajský server článku dává, kdežto podle umístění zprávy na webové stránce se již dá usuzovat, co je zpráva dne a co jen krátká noticka.
Lahvičkův robot-getter prochází stránky zpravodajských serverů, a pokud zaznamená výskyt nového článku, stáhne jej a agreguje s ostatními. Robot prochází weby jednou za pět až dvacet minut a je natolik inteligentní, že interval pružně přizpůsobuje podle toho, zda server vydává zprávy častěji nebo s delším odstupem – chová se tedy stejně jako gettery fulltextových vyhledavačů webu, jen pracuje s intervaly mnohonásobně kratšími.
Lahvička pro každý zdrojový server musel odladit extrahování textů zvlášť. To má své výhody, protože agregátory založené na fulltextových vyhledavačích indexují celou stránku, a tak pokud hledáte články ke slovu, které se často na webových stránkách vyskytuje mimo text článku, dostanete pravděpodobně naprosto irelevantní výsledky. Například články o motýlech dopadnou dobře, ale články o sovách nemá smysl hledat, protože shodou okolností je slovo sova nadužíváno jako název jednoho ze zdrojových serverů. (Problém se projeví jen při časovém řazení, které například Centrum raději neposkytuje a Michal Illich určitě bude tvrdit, že se to týká minima slov, která nikdo ve článcích nehledá – a bude mít pravdu.)
Potíž Lahvičkova přístupu je v tom, že šablony stránek se mění. Pokud by se getter dostal na tu úroveň, že by zvládl porovnávat dvě verze stránky proti sobě, mohl by se sám naučit rozeznat, která část se změnila a která zůstává stejná. Měnící se část by pak mohl zaindexovat jako článek, stabilní by mohl ignorovat a považovat za součást šablony. O důležitosti zprávy by pak mohl automat rozhodovat podle toho, v jaké vzdálenosti od začátku dokumentu se vyskytuje (zprávy nahoře), kolik textu jim je na straně věnováno (hlavní zpráva bude mít delší upoutávku), a podle zanoření (zprávy z titulní strany jsou nejzajímavější).
Nový den nyní monitoruje necelé dvě desítky zdrojů. Naproti tomu Google agreguje zpravodajství z tisíců webů. Google má tedy větší možnost rozhodovat se, která z událostí je důležitější i podle toho, kolik článků je jí věnováno. Google News ale musejí mnohem více spoléhat na algoritmizaci a automatizaci agregování.
Při shlukování zpráv v podobně zaměřeném projektu Přehled.net, který má na svědomí Patrick Zandl, se používá konkordance. Předpokládám, že stejný princip zvolil i Lahvička v Novém dni a nejspíš tak fungují i Google News. V podstatě jde o to, že se k seznamu slov připisují odkazy na texty, v nichž se vyskytují. Čím více mají texty společných slov, tím pravděpodobnější je, že pojednávají o stejné události. U novinových zpráv stačí porovnat třeba jen nadpisy a první odstavce.
Při konkordanci se obvykle vynechávají slova, která nenesou význam (stop words). Bez použití tezauru je možné vytvářet slovník postupně ze slov extrahovaných ze zpráv. Vynechávají se krátká slova (předložky, spojky, zájmena patří mezi obvykle krátká slova, průměrné české slovo má mezi pěti a šesti znaky). V češtině je vhodné počítat i se slovníkem synonym a morfologickými pravidly (skloňování, časování, stupňování, …).
Shlukování tematicky podobných zpráv se na Novém dni povedlo. Lahvička se dokonce celkem úspěšně snaží odhalovat duplicitní obsah. Nový den je s to rozeznat, že Lidovky, iHNed a Atlas převzaly zprávu o radiolokátoru ze servisu ČTK (ať už to Lahvička dělá porovnáním dokumentů, vysokou vzájemnou konkordancí nebo rozeznáním domicilu či podpisu autora). Naopak u zprávy o prvním letu soukromé rakety do vesmíru Nový den rozeznal, že v případě Atlasu, Tiscali a BBC jde pokaždé o jinou zprávu k témuž tématu.
Nový den zvládá zprávy najít a sloučit, ale Google News předkládají čtenáři z klubka zpráv na stejné téma přednostně odkaz na váženější médium. Předpokládá se totiž, že Washington Post má o volbách prezidenta zajímavější zprávy nežli třeba Minneapolis Star Tribune. Většina českých agregátorů zprávy nijak nehierarchizuje. Volný Noviny zprávy prostě řadí za sebou podle toho, jak je načetl. Headlines, Jyxo , Právě dnes a Novinky – Deníky zprávy rozdělí podle zdroje. News Centrum ovšem vybere z každé rubriky deset zpráv na titulní stranu a tři z nich zvýrazní.
Vyhledavače by pro hierarchizaci zpráv mohly využít váhu zpětných odkazů. Ať už cosi jako pagerank titulní strany média, nebo popularitu odkazů á la nejomílanější zprávy. V českém jazyce ale bohužel není tolik citujících blogů, proto řazení podle popularity zdroje nelze uplatnit. Při počtu zpravodajských webů a jejich zaměření by zase došlo k tomu, že při řazení dle pageranku by byl na prvním místě opakovaně týž zdroj.
Pánové Lahvička i Zandl svorně přiznávají, že zvolili zásah deus ex machina a nastavili zdrojům důležitost podle vlastního úsudku. Totéž se, myslím, stalo na News Centrum, protože na předních místech se běžně obměňuje táž množina serverů. Při malém počtu českých zdrojů je to zřetelnější než na Google News, kde lidský zásah nejspíš zvolili při ohodnocení zdrojů také.
Oproti Google News má zatím Nový den dvě nevýhody. Malý záběr daný omezením na čtyři rubriky (kde jsou technologie, bulvár, místní zprávy…) a minimum zdrojů (necelých dvacet na Novém dni proti třem stovkám na Právě dnes a třem tisícům v Google News). Druhou nevýhodou je absence prohledávatelného archívu – v každé rubrice je jen třináct aktuálních témat. I tak je ale překvapivé, že jeden nadšenec vytvořil tak zajímavou službu ve srovnání se snažením firem, jako jsou NetCentrum, Jyxo nebo Anneca.