V době, kdy píší tento článek, zbývá do zahájení voleb několik hodin. V této situaci mi nezbývá příliš mnoho času na líčení příběhu vedoucího ke vzniku tohoto „truc projektu“. A to je možná dobře, za datové analytiky by měla spíše mluvit zajímavá data, grafy a statistiky.
Poznámka: následující analýza není průzkumem volebních preferencí. Vznikala mimo pracovní dobu a nebyla nikým placena. Nebudu také tvrdit, že následující přehled je naprosto objektivní a jediný možný – na to jsme příliš malý tým s malými prostředky. Konec konců na celou analýzu jsem si vyhradil cca 30 pracovních hodin.
Zdroje dat a zvolená metodika
TIP: Česko bude digitální ráj. Strany před volbami slibují internet zdarma či ministerstvo informatiky
Za výchozí zdroj údajů pro analýzu jsem zvolil export dat ze systému SentiOne. Tento mezinárodní systém již několik let monitoruje evropský internet a nabízí aplikační platformu založenou na nejkomplexnější databázi dat ze sociálních sítí (Facebook, Twitter, Google+) a navíc monitoruje ještě diskuzní fóra, články i diskuze pod články, produktové recenze, YouTube a Instagram.
Za výchozí období jsem zvolil osm kompletních předvolebních týdnů (Po–Ne) v období od 21. 8. do 15. 10. 2017. V tomto časovém úseku jsem v systému nalezl 1 750 106 zmínek týkajících se široce definovaných voleb a politických stran. Vybral jsem tisíc náhodných zmínek, roztřídil je a sestavil k nim logické podmínky tak, abych zachytil alespoň 95 % relevantních zmínek – tak vznikly komplexní třídicí dotazy zachycující zmínky přiřaditelné k deseti politickým stranám. Dotazy do databáze jsem dospěl k následujícímu souboru dat:
Téma je evidentně velmi frekventované, v databázi zůstalo cca 890 000 zmínek. Pro analýzu převládající nálady (odborný termín – sentiment) bylo ještě třeba označit zmínky, které se týkají pouze jedné strany (vyloučení rekombinací) – důvodem je zvýšení přesnosti automatické detekce sentimentu (pozitivní-neutrální-negativní) ve vazbě ke zkoumaným politickým stranám. Dále jsem ručně označil vlastní profily stran a hnutí.
Prvotní data – výchozí grafy
LOVE – součet pozitivních a neutrálních zmínek
Zvlnění u tohoto grafu je typické – zmínky běžně reagují na každou událost (debaty, článek v mediích, aféra, odhalení, u sportu například zápas – jako analytik si mohu každý vrchol otevřít a zjistit, co se tehdy řešilo). Přesto mě předchozí graf poměrně překvapil – výrazně rostoucí trend zmínek týkajících se hnutí SPD Tomio Okamury jsem nečekal. Jedná se přitom o neutrální a pozitivní zmínky!
HATE – negativní zmínky
Graf negativních zmínek vedou v součtu následující strany: ANO, SPD a ČSSD. To se tak trochu dalo čekat. Překvapivý je pouze trend klesající popularity ČSSD (čísla jsou absolutní).
S původními daty bychom mohli pokračovat ještě dlouho, ale rozhodli jsme se do nich ještě více „říznout“ a podívat se, jak je to s dnes tak běžným „bombardováním a tapetováním sociálních sítí“. Za bombardování považujeme neúměrné zasypávaní sociálních sítí příspěvky, tapetování je podobná činnost doprovázená opakováním zmínek systémem Ctrl-C/Ctrl-V.
Nehodlám a nechci spekulovat, kdo je v následující části analýzy „fanda“, kdo „troll“ a co jsou domnělé posty placených diskutujících (zejména v emočně vypjatém předvolebním období). Bez náročné časové a frekvenční analýzy jsou indicie pro kvalitní roztřídění poměrně slabé. Tak snad příští volby – rád bych na to vytrénoval neuronovou síť a pokusil se o hlubší pohled na stále častější trend ovlivňování diskuzí na sociálních sítích.
Příklad: profil strany vs. náhodně vybraný „bomber/tapetovač“
Níže uvedu příklad dvou profilů – musím podotknout, že v databázi máme posty týkající se pouze politických stran a voleb (další dotazy do databáze SentiOne by ukázaly mnohem vyšší čísla):
Sloupec mood indikuje náladu, „mentions“ jsou počty zmínek neboli příspěvků. LoVe_index a HaTe_index je převládající nálada x počet zmínek. Poznámka – předchozí tabulka nevypovídá nic konkrétního ani o ODS, ani o ANO – jen ilustruje, jak systém citlivě indikuje charakter debaty.
V tabulce vidíte, že profil ODS má pochopitelnou pozitivní afinitu k ODS, a pouze mírný „hate“ směřuje ke KSČM. Profil s id 234272653 (důsledně anonymizováno – účelem výzkumu jsou pouze statistická data) je nejspíše příznivcem ANO (mood –6 % je v reálu „mírná chvála“) a zároveň výrazným kritikem ČSSD a TOP 09 (mood –22 %, –23 %). Počet zmínek tohoto konkrétního profilu ve zkoumaném období je 1130 (511 postů zmiňuje hnutí ANO). V našem souboru sociálních profilů to vypadá následovně:
Bombardérů/tapetovačů má každý subjekt různý počet – někdy je to více (SPD, ANO), jindy zase méně (SZ). Zevrubná analýza by byla časově náročná – profily tohoto typu se špatně řadí ke konkrétním stranám – zejména negativní bombeři. V této souvislosti neopomenu poznámku: ne každý názor, který čtete na sociálních sítích, je autentický. Občas čtete obsah generovaný zkušeným „kobercovým bombardérem“. :-D
Podíl hromadných posterů na celkovém množství zmínek
Zkusil jsem změřit, jaký podíl obsahu v našem vzorku tvoří „bombeři“ a kolik obsahu je generováno menšími profily. Limit jsem v tomto případě nastavil na 12 příspěvků ve zkoumaném období 2 týdnů:
LOVE – neutrální a pozitivní zmínky
Ve výsledném grafu je vidět obrovská korekce a pozitivních a neutrálních zmínek u některých stran. Ve všech případech více dat generují hromadní posteři. :-)
HATE – negativní zmínky
Ano, jak je vidět, tapetuje se evidentně jak pozitivně, tak i negativně. Poznámka: všimněte si, že měřítko tohoto grafu se od předchozího liší.
Další výzva – nastavme limit na autory s pouze jedinou zmínkou
V tomto okamžiku začínáme vlastně od začátku – model jeden autor / jedna zmínka vyzdvihuje drobné hlasy. Výhodou ale je, že malé profily se prakticky nevyplácí „fejkovat“ ani manipulovat. Pravda, odfiltrování autorů s více zmínkami byl radikální tah (přišli jsme o značnou část dat) – stále však máme k dispozici desetitisíce relevantních zmínek!
Unikáti – změna témat a nálady v čase
Stačilo několik týdnů a situace vypadá v diskuzích zcela jinak! Jako datový analytik jsem rád, že sociální sítě tak rychle reaguji na nálady ve společnosti. Všimněte si nástupů Pirátů a SPD.
Kombinovaný graf – nálada vůči stranám a hnutím
Jelikož volby vyvolávají pozitivní i negativní pocity, sestavil jsem graf, kde proti neutrálním a kladně tónovaným zmínkám (NEUTRAL + POSITIVE) stavím negativní (NEGATIVE). Následný graf ukazuje jistou podobu diskurzu na sociálních sítích:
Pohledem na graf si nejspíše odvodíte, že přesně tímto způsobem tyto volby nejspíše nedopadnou – sloupce proto záměrně nechávám bez procentuálních hodnot.
Věcné poznámky:
- překvapuje vysoký potenciál SPD: i po aplikovaném „anti-tapetovacím“ filtru, kdy se počítají zmínky autorů s jedinou zmínkou v období 14 dní
- otázka: projevil se u SPD efekt sněhové koule, efekt, který je častěji k vidění v průběhu mediálních krizí (viz palmový olej v potravinách)?
- u ČSSD se počet negativních zmínek blíží součtu zmínek neutrálních a negativních (indikuje nízký podíl explicitně pozitivních zmínek problém?)
- rozhoduje horní polovina grafu, volí se pozitivně – pokud by každý měl zároveň i negativní hlas, dopadly by volby zcela jinak!
Popularita stran a hnutí – poměr jednotlivých sentimentů
Srovnáním grafů naleznete jisté podobnosti – například mezi ODS a TOP 09. Další analogie a anomálie (do ležícího se nekope) můžete hledat sami.
Nelíbí se vám prezentované analýzy? Běžte prosím volit!
Možná budete čekat, že v posledním odstavci odhalím obrovské spiknutí. Že vyvodím radikální závěry. Nic takového se ale nestane. Moje přání a osobní preference zde nehrají žádnou roli, navíc v této záležitosti jsem pouhým poslem. A i když si přeji, aby mé analýzy v maximální míře „vycházely“ – tentokrát se naznačeného trendu poněkud obávám…
P. S.: Nakonec bych chtěl poděkovat společnosti SentiOne za poskytnutá data. Čtenáře zároveň prosím o náměty pro příští analýzu – podmínkou je čilá diskuze na sociálních sítích.
Text původně vyšel na blogu GoodMentions, Lupa jej vydává se souhlasem autora.