Konečně "české googlenews"

23. 6. 2004

Doba čtení: 5 minut

Server Nový den si za krátkou dobu vydobyl označení "české googlenews". Snadno zastíní podobné projekty portálů, přestože je výtvorem jediného muže. Nový den skutečně staví na podobných principech jako Google News: stahuje čerstvé zprávy v krátkých intervalech, sdružuje je podle témat a řadí témata a zdroje podle důležitosti.

Nouzi o služby, které přinášejí webové odkazy na články českých novin, nemáme. Internetoví trilobiti si možná vzpomenou na Trafiku, kde se shromažďovaly články z novin ještě před vznikem zpravodajských serverů, jak je známe dnes. V současné době si můžete vybrat z mnoha možností. Namátkou mě napadá Právě dnes, Volný Noviny, Novinky – Deníky, Headlines, News Centrum, Jyxo Články… Ale server srovnatelný svou kvalitou s agregátorem zpráv Google News tu chyběl. Nyní to vypadá, že by očekávání českých „googlenews“ mohl splnit projekt Jiřího Lahvičky Nový den.

Většina agregátorů zpráv funguje na principu syndikace odkazů. To znamená, že v pravidelných intervalech stahují ze serverů soubory, které buď mají formát XML, nebo odvozený z CSV. Výjimku tvoří snad jen výstřižkové služby a zpravodajské agentury, které přijímají obsahy zpráv na základě smluv ve vlastním definovaném formátu – tak to funguje především u tištěných předloh. Něco mezi tím podnikají Jyxo a Centrum, které sice vycházejí z exportních souborů, ale zároveň indexují webové stránky.

Lahvička má k exportním formátům nedůvěru, a proto se vrhnul na dekonstrukci webových stránek zpravodajských serverů. Pro nás, vyznavače sémantického webu, je to těžká rána, ale v současné chvíli Lahvičkův přístup jako jediný splňuje představu o automatickém shlukování a hierarchizaci zpráv. Z exportního souboru totiž těžko poznáte, jakou váhu zpravodajský server článku dává, kdežto podle umístění zprávy na webové stránce se již dá usuzovat, co je zpráva dne a co jen krátká noticka.

Lahvičkův robot-getter prochází stránky zpravodajských serverů, a pokud zaznamená výskyt nového článku, stáhne jej a agreguje s ostatními. Robot prochází weby jednou za pět až dvacet minut a je natolik inteligentní, že interval pružně přizpůsobuje podle toho, zda server vydává zprávy častěji nebo s delším odstupem – chová se tedy stejně jako gettery fulltextových vyhledavačů webu, jen pracuje s intervaly mnohonásobně kratšími.

Lahvička pro každý zdrojový server musel odladit extrahování textů zvlášť. To má své výhody, protože agregátory založené na fulltextových vyhledavačích indexují celou stránku, a tak pokud hledáte články ke slovu, které se často na webových stránkách vyskytuje mimo text článku, dostanete pravděpodobně naprosto irelevantní výsledky. Například články o motýlech dopadnou dobře, ale články o sovách nemá smysl hledat, protože shodou okolností je slovo sova nadužíváno jako název jednoho ze zdrojových serverů. (Problém se projeví jen při časovém řazení, které například Centrum raději neposkytuje a Michal Illich určitě bude tvrdit, že se to týká minima slov, která nikdo ve článcích nehledá – a bude mít pravdu.)

Potíž Lahvičkova přístupu je v tom, že šablony stránek se mění. Pokud by se getter dostal na tu úroveň, že by zvládl porovnávat dvě verze stránky proti sobě, mohl by se sám naučit rozeznat, která část se změnila a která zůstává stejná. Měnící se část by pak mohl zaindexovat jako článek, stabilní by mohl ignorovat a považovat za součást šablony. O důležitosti zprávy by pak mohl automat rozhodovat podle toho, v jaké vzdálenosti od začátku dokumentu se vyskytuje (zprávy nahoře), kolik textu jim je na straně věnováno (hlavní zpráva bude mít delší upoutávku), a podle zanoření (zprávy z titulní strany jsou nejzajímavější).

Nový den nyní monitoruje necelé dvě desítky zdrojů. Naproti tomu Google agreguje zpravodajství z tisíců webů. Google má tedy větší možnost rozhodovat se, která z událostí je důležitější i podle toho, kolik článků je jí věnováno. Google News ale musejí mnohem více spoléhat na algoritmizaci a automatizaci agregování.

Při shlukování zpráv v podobně zaměřeném projektu Přehled.net, který má na svědomí Patrick Zandl, se používá konkordance. Předpokládám, že stejný princip zvolil i Lahvička v Novém dni a nejspíš tak fungují i Google News. V podstatě jde o to, že se k seznamu slov připisují odkazy na texty, v nichž se vyskytují. Čím více mají texty společných slov, tím pravděpodobnější je, že pojednávají o stejné události. U novinových zpráv stačí porovnat třeba jen nadpisy a první odstavce.

Při konkordanci se obvykle vynechávají slova, která nenesou význam (stop words). Bez použití tezauru je možné vytvářet slovník postupně ze slov extrahovaných ze zpráv. Vynechávají se krátká slova (předložky, spojky, zájmena patří mezi obvykle krátká slova, průměrné české slovo má mezi pěti a šesti znaky). V češtině je vhodné počítat i se slovníkem synonym a morfologickými pravidly (skloňování, časování, stupňování, …).

Shlukování tematicky podobných zpráv se na Novém dni povedlo. Lahvička se dokonce celkem úspěšně snaží odhalovat duplicitní obsah. Nový den je s to rozeznat, že Lidovky, iHNed a Atlas převzaly zprávu o radiolokátoru ze servisu ČTK (ať už to Lahvička dělá porovnáním dokumentů, vysokou vzájemnou konkordancí nebo rozeznáním domicilu či podpisu autora). Naopak u zprávy o prvním letu soukromé rakety do vesmíru Nový den rozeznal, že v případě Atlasu, Tiscali a BBC jde pokaždé o jinou zprávu k témuž tématu.

Nový den zvládá zprávy najít a sloučit, ale Google News předkládají čtenáři z klubka zpráv na stejné téma přednostně odkaz na váženější médium. Předpokládá se totiž, že Washington Post má o volbách prezidenta zajímavější zprávy nežli třeba Minneapolis Star Tribune. Většina českých agregátorů zprávy nijak nehierarchizuje. Volný Noviny zprávy prostě řadí za sebou podle toho, jak je načetl. Headlines, Jyxo , Právě dnes a Novinky – Deníky zprávy rozdělí podle zdroje. News Centrum ovšem vybere z každé rubriky deset zpráv na titulní stranu a tři z nich zvýrazní.

Vyhledavače by pro hierarchizaci zpráv mohly využít váhu zpětných odkazů. Ať už cosi jako pagerank titulní strany média, nebo popularitu odkazů á la nejomílanější zprávy. V českém jazyce ale bohužel není tolik citujících blogů, proto řazení podle popularity zdroje nelze uplatnit. Při počtu zpravodajských webů a jejich zaměření by zase došlo k tomu, že při řazení dle pageranku by byl na prvním místě opakovaně týž zdroj.

Pánové Lahvička i Zandl svorně přiznávají, že zvolili zásah deus ex machina a nastavili zdrojům důležitost podle vlastního úsudku. Totéž se, myslím, stalo na News Centrum, protože na předních místech se běžně obměňuje táž množina serverů. Při malém počtu českých zdrojů je to zřetelnější než na Google News, kde lidský zásah nejspíš zvolili při ohodnocení zdrojů také.

Oproti Google News má zatím Nový den dvě nevýhody. Malý záběr daný omezením na čtyři rubriky (kde jsou technologie, bulvár, místní zprávy…) a minimum zdrojů (necelých dvacet na Novém dni proti třem stovkám na Právě dnes a třem tisícům v Google News). Druhou nevýhodou je absence prohledávatelného archívu – v každé rubrice je jen třináct aktuálních témat. I tak je ale překvapivé, že jeden nadšenec vytvořil tak zajímavou službu ve srovnání se snažením firem, jako jsou NetCentrum, Jyxo nebo Anneca.

Kde čtete zprávy?

Vstoupit do diskuse (32 názorů)

Martin Kopta

Autor se zabývá výkonovým marketingem na internetu. Pracoval pro Advertures, Dobrý web a Outrider. Martin byl dříve redaktorem Lupy a dalších periodik o IT.

Témata:

Adresa je na: http://www.emobile.cz/redakce.htm

bez přezdívky

Sdílet

Kde čtete zprávy?

Autor článku

Martin Kopta

Témata:

Anketa

Měl by se OSA platit poplatek z do Česka dovezených chytrých telefonů?

Jurečka mate začínající OSVČ, odpuštění záloh se netýká zdravotního pojištění

Na návštěvě v České poště a v její Balíkovně. Podívejte se pod pokličku největšího třídicího centra

Antihmota jako nejlepší palivo pro cestování do vesmíru? Teorie vypadá slibně, realizace ale zabere…

Rok 2024 ve světle legislativních změn pro zaměstnavatele

Tyhle věci nezapomeňte do konce roku udělat, ušetřit vám to může tisíce. A s čím naopak počkat na…

Mladá generace roste do nebezpečné doby umělé inteligence, říká Valenta ze Vzdělávání budoucnosti.…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

Zaměstnanec si sám rozhodl o čerpání dovolené. Měl na to právo, stejně ale dostal vyhazov na hodinu

Kde se plní přání dětem i dospělým. Santova vesnička v Laponsku nabízí jízdu sobím spřežením a…

Konečně "české googlenews"

Sdílet

Kde čtete zprávy?

Autor článku

Čtěte dále

Anketa

Měl by se OSA platit poplatek z do Česka dovezených chytrých telefonů?

Podcast

Mohlo by vás zajímat

Z našich webů

Jurečka mate začínající OSVČ, odpuštění záloh se netýká zdravotního pojištění

Na návštěvě v České poště a v její Balíkovně. Podívejte se pod pokličku největšího třídicího centra

Antihmota jako nejlepší palivo pro cestování do vesmíru? Teorie vypadá slibně, realizace ale zabere…

Rok 2024 ve světle legislativních změn pro zaměstnavatele

Tyhle věci nezapomeňte do konce roku udělat, ušetřit vám to může tisíce. A s čím naopak počkat na…

Mladá generace roste do nebezpečné doby umělé inteligence, říká Valenta ze Vzdělávání budoucnosti.…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

Zaměstnanec si sám rozhodl o čerpání dovolené. Měl na to právo, stejně ale dostal vyhazov na hodinu

Kde se plní přání dětem i dospělým. Santova vesnička v Laponsku nabízí jízdu sobím spřežením a…

Dále u nás najdete

OSA chce 90 Kč z každého prodaného chytrého telefonu

Česká ekonomika příští rok zrychlí růst na 2,6 procenta

Online nákupy pohodlně. Známe trendy v e-commerce pro rok 2025

Generativní AI jako open source projekt

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Na počítači od Apple nemusíte mít jen macOS

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Ivanti dává hattrick třemi kritickými zranitelnostmi

Tři důležité změny v oblasti zdanění zaměstnanců pro rok 2025

Češi vyslali svařovacího robota do vesmíru

Celofán nepatří do plastu a rozbité ozdoby nesmí do skla

Při balení dárků nemusíte vůbec používat izolepu, dokonce ani papír

Rekord Lindy Bartošové. Slast je na Wave nejúspěšnější

Experti zpochybnili pilíř, podle kterého se hodnotí zranitelnosti

Tři oříšky pro Seznam. Popelka bude jinde než obvykle

Zdravotní pojištění nebude začínajícím OSVČ odpuštěno

Úřad a zpracovatelé masa chtějí, ať se vege párky a rostlinné burgery jmenují jinak

Ona pracuje s jehlou a nití, on se štětci a barvami

Intel vydal slušnou grafickou kartu Arc B580

Operátoři testují nástroj proti podvrženým mobilním číslům