O analýzách sentimentu uživatelů jsme na Lupě již nedávno psali. V podstatě vzato se jedná o technologii poznávání stavu nějaké skupiny lidí převzatou ze sféry byznysu, přesněji řečeno z akciových trhů. Právě zde naladění obchodníků a jejich subjektivní přesvědčení představuje faktor, který rozhoduje o ceně akcií mnohem více než reálná hodnota či finanční kondice firmy.
Již ve výše zmíněném článku jsem si dovolil poukázat na to, že analýza sentimentu je v online prostředí potenciálně použitelná k politickým cílům. Volby do Poslanecké Sněmovny parlamentu, které se uskuteční již tento týden, sice nejsou letos jediné, ale zato suverénně nejdůležitější. A právě při jejich příležitosti začala společnost eMerite uvolňovat výsledky svých výzkumů sentimentu uživatelů Internetu.
Výzkumy (informace o jejich výsledcích najdete na příslušné stránce, zde je nechceme komentovat) nám mohou posloužit jako víceméně klasická ukázka snah o zjišťování sentimentu ve specifickém prostředí Internetu. Můžeme o nich říci, že se zaměřují dvěma směry. Prvním je zkoumání kvantitativního charakteru. Firma se snaží „počítat“ výskyty politických stran, subjektů a postav, respektive jejich jmen na českém Internetu – v diskuzích, komentářích, článcích, na sociálních sítích. Druhé zkoumání je rovněž kvantitativní (firma počítá), ale orientuje se na kvalitu. Kdo je nejlépe vnímaným politikem na Internetu? O kom je zde možné najít nejvíce pozitivních zmínek?
Výsledky obou dvou přístupů jsou mediálně mimořádně „sexy“. Před volbami média touží po tom vědět, o kom diskutuje český Internet. Přesněji řečeno, koho by volil český Internet. Pokud by taková analýza byla alespoň blízko pravdě, mohla by znamenat zajímavé (a samozřejmě využitelné) informace i pro politiky, což je pravděpodobně směr, kterým firma, která se do těchto výzkumů pustila, míří. Na druhou stranu ale nad tím, nakolik je reálné měřit sentiment uživatelů, visí celá řada mráčků pochybnosti. Nejvýznamnější z nich jsou v metodice výzkumu. Proto jsme se společnosti pokusili zeptat, stručně řečeno, jak to dělá.
Velikost neznámá
Pro jakýkoli kvantitativní výzkum jsou klíčově důležité dva faktory. Za prvé, jak velké množství informací je zpracováno a za druhé, jak velkou část z celku představuje. eMerite tvrdí, že zkoumá všechny reálné výskyty klíčových slov (třeba „ODS“), a to za pomocí speciálních vyhledávacích softwarů. Nechci s přímo tvůrci těchto výzkumů polemizovat, ale faktem je, že ani vysoce specializované systémy prohledávání nejsou schopny postihnout všechny reálné výskyty informací. Kupodivu ještě více to platí na sociálních sítích, které jsou sice obrovské, ale zase zůstávají svým způsobem „světem ve světě“ mnohem většího Internetu. Jakýkoli vyhledávací nástroj, který funguje zvenku, nemůže být ničím jiným, než podmnožinou, respektive klientem integrovaného vyhledávání (je možné také tzv. „chodit po odkazech“, ale tím se rovněž postihne jen nevelká část sítě). eMerite nám absolutní čísla (tedy kolik stránek, komentářů a záznamů na sociálních sítích bylo analyzováno) bohužel neprozradilo, takže je zde nemůžeme publikovat. Předpokládám však, že i když by tato absolutní čísla byla nejspíše v řádu stovek tisíc až milionů, reálně postihuje pouze malou část obsahu českého Internetu.
Jak je to s přesností?
Podívejme se na to, co je pro novináře i pro politiky na výzkumech nejdůležitější, tedy na sentiment uživatelů. Podle tvůrců výzkumu eMerite, respektive ředitele společnosti pana Petráška, je sentiment příspěvků (tedy zda příspěvek, který zmiňuje konkrétní politický subjekt, vyznívá pozitivně nebo negativně) určován automaticky, ale zároveň také kontrolován ručně. Tím se dostáváme k vůbec největšímu problému sentiment-analýzy v prostředí Internetu, který platí všude, ale v obrovské míře u česky hovořících uživatelů. Analýzu skutečného vyznění, tedy zda je konkrétní výpověď vzhledem k danému subjektu zájmu pozitivní nebo negativní, je extrémně obtížné provést automaticky. A co hůře, není to příliš přesné ani ručně. Povězme si proč.
Takřka žádná výpověď neobsahuje vyznění vůči subjektu zájmu, které by vycházelo pouze z ní samotné. I tak triviální výkřik do tmy, jako „Ať žije ČSSD“, může mít jak kladný nebo záporný obsah v závislosti na svém okolí. Vyznění tak lze demaskovat velmi komplexní analýzou okolí výroku, nebo použitím živého člověka, který analýzu provede a výsledek „započítá“. Tím se do hry analýzy sentimentu dostává intuice, ale i něco horšího; totiž interpretace, zkušenosti, věk, vzdělání, preference a další faktory související s jednotlivcem obecně – a ještě další, související s ním aktuálně. Tyto faktory (patří mezi ně únava, okamžitá nálada, nebo třeba počasí) spoluurčují rozhodování člověka, zvláště, když pracuje ve stresové zátěži. Stresová zátěž se dá od člověka který má analyzovat tisíce různých výroků, očekávat…
Pokud jde o strojovou analýzu sentimentu, je problematická všeobecně, ale ještě problematičtější v češtině. Nabízí se zde jedna odborné veřejnosti všeobecně známá analogie. Stačí si vzpomenout, jak dlouho trvalo společnosti Microsoft, než počeštila gramatickou kontrolu ve svém balíku Office. Problém byl, že i když určování základních vztahů gramatiky bylo relativně snadné, drobné detaily dělaly přípustně kvalitní kontrolu gramatiky dlouho nedostupnou. Se strojovou analýzou sentimentu je to podobné, ale ještě obtížnější. Naproti tomu lidská práce se dá korigovat křížovou kontrolou. Zda ji eMerite provádí, bohužel nevíme, neboť jsme neměli čas společnost blíže vyzpovídat.
Užitečnost
Výše uvedené výhrady neměly za cíl ukázat, jak je výzkum politického sentimentu českých uživatelů Internetu v podání společnosti eMerite vlastně k ničemu. Naopak, určitě může být užitečný pro politické subjekty i pro média. Musíme si ale uvědomit, že Internet je svým způsobem jako tramvaj jedoucí v době odpolední špičky. Najdeme zde lidi různého věku, pohlaví, vzdělání i zaměstnání, všichni však mají společné to, že jedou tramvají v době odpolední špičky. Jinými slovy, jejich „podobnost“ se nachází na vyšší třídící úrovni. Slovy některých odborníků na adresu jiné čistě „internetové“ analytické agentury; Internet trpí velkou měrou nevýběrového zkreslení. To znamená, že informace zjištěné na něm je nemožné žádným způsobem transformovat do reality mimo něj. Výzkum tedy užitečný je. Jen je třeba abychom věděli, že se týká pouze Internetu, pouze části Internetu v určité době a určitým způsobem. Nic méně, nic více.
Deriváty
Výzkumy politického sentimentu eMerite mohou být docela dobrou inspirací pro další, kteří by se chtěli pustit do něčeho podobného. Existuje – a firma to dělá – totiž možnost jejich derivátů na mnohem menších vzorcích populace, než je „celý internet“. Kromě toho je lze provádět kvalitativně (na velmi malém počtu účastníků). Tím prudce stoupá hodnota výsledků takových výzkumů, respektive míra toho, nakolik odpovídají realitě. Před volbami však veřejnost daleko spíše ocení představu „celého Internetu“, který si v 45 % případů z neznámo jak velkého vzorku myslí, že pravdu má X. V tomto ohledu považuji zveřejněné výzkumy spíše za formu self-promotion než za něco, co může přinést pravdu. I taková forma propagace ovšem může být úspěšná.
Dopad
Jak již bylo zmíněno v původním článku, problém výzkumů sentimentu spočívá od základu v tom, že bývají využívány ne k zjišťování jak se věci mají, ale k určování toho, jak chceme, aby se měly. Nakolik takto může fungovat výzkum sentimentu uživatelů Internetu, je svým způsobem vzrušující a mimořádně zajímavá otázka. Zajímavá už jen tím, že je ještě hůře probádatelná než stejná otázka u „konvenčních“ výzkumů veřejného mínění. Zde Internet svým uživatelům ještě hodně dluží a dlužit dlouho bude.