Elektronická databáze autentických českých textů a promluv chystá novinku. Český národní korpus začal systematicky sbírat data z vybraných online médií, diskusních fór i sociálních sítí, jako je Facebook, Twitter či Instagram.
Údaje plánuje dát v rámci projektu Online veřejně k dispozici nejspíše v dubnu 2020 a bude je průběžně aktualizovat, oznámil na konferenci New Media Inspiration 2020 Václav Cvrček z Ústavu Českého národního korpusu při Filozofické fakultě Univerzity Karlovy.
Databáze má sbírat v průměru 5,7 milionu tokenů za den (z toho 1,5 milionu má pocházet z webových médií), ročně má jít asi o 2 miliardy položek. Textová data projekt získává od firmy Dataweps.
Ústav má už sesbírána data za roky 2017 – 2020, zpracovány má ale zatím jen texty z roku 2019. Data opatřuje anotacemi a tagy a v budoucnosti plánuje, že je bude aktualizovat na denní bázi.
Údaje z korpusu se dají využít k výzkumu či k analýze toho, jaká témata se v internetových médiích či na sociálních sítích objevují.