Český národní korpus chystá databázi textů z online médií a sociálních sítí

7. 3. 2020

Elektronická databáze autentických českých textů a promluv chystá novinku. Český národní korpus začal systematicky sbírat data z vybraných online médií, diskusních fór i sociálních sítí, jako je Facebook, Twitter či Instagram.

Údaje plánuje dát v rámci projektu Online veřejně k dispozici nejspíše v dubnu 2020 a bude je průběžně aktualizovat, oznámil na konferenci New Media Inspiration 2020 Václav Cvrček z Ústavu Českého národního korpusu při Filozofické fakultě Univerzity Karlovy.

Databáze má sbírat v průměru 5,7 milionu tokenů za den (z toho 1,5 milionu má pocházet z webových médií), ročně má jít asi o 2 miliardy položek. Textová data projekt získává od firmy Dataweps.

Ústav má už sesbírána data za roky 2017 – 2020, zpracovány má ale zatím jen texty z roku 2019. Data opatřuje anotacemi a tagy a v budoucnosti plánuje, že je bude aktualizovat na denní bázi.

Údaje z korpusu se dají využít k výzkumu či k analýze toho, jaká témata se v internetových médiích či na sociálních sítích objevují.

Vstoupit do diskuse (4 názory)

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

David Slížek

Šéfredaktor Lupa.cz a externí spolupracovník Českého rozhlasu Plus. Dříve editor IHNED.cz, předtím Aktuálně.cz a Českého rozhlasu. Najdete mě na Twitteru nebo na LinkedIn.

Sdílet

Autor aktuality

David Slížek

Témata:

Anketa

Měl by se OSA platit poplatek z do Česka dovezených chytrých telefonů?

Český národní korpus chystá databázi textů z online médií a sociálních sítí

Sdílet

Autor aktuality

David Slížek

Témata:

Anketa

Měl by se OSA platit poplatek z do Česka dovezených chytrých telefonů?

Další aktuality

S Národním bezpečnostním úřadem lze nově komunikovat elektronicky, byl spuštěn Portál NBÚ

Robert Čásenský se stal šéfredaktorem webu Seznam Zprávy

Občankou v mobilu už je možné se prokázat i u notářů a na poště

Sledovanost 2024: ČT byla posedmé v řadě nejsledovanější televizní skupinou

Dále u nás najdete

Zneužití nástrojů Microsoftu vzrostlo o hrozivých 51 %

Zdravé občerstvení na Silvestra, po kterém vám nebude těžko

Značku založila na popud svých synů. Pomáhali jí i s prodejem

Podezřele levné estetické zákroky někdy nabízejí lidé bez vzdělání

Rok 2025 ve zdravotnictví: mění se vracení doplatků za léky

Příčinou laryngitidy bývá virová infekce, u dospělých i kouření

Domácí měření tlaku má smysl, ale musíte ho dělat správně

Rok 2024: Crowdstrike, vzestup AI, pan Megaupload mířící do USA

Co by mohl potřebovat linuxový desktop v roce 2025

Generativní AI jako open source projekt

Myjeme si ruce, jíme céčko a věříme, že to bude stačit

Politické kampaně 2025: ANO slíbí zvýšení důchodů

Přehled změn, které se na podnikatele chystají v roce 2025

Celofán nepatří do plastu a rozbité ozdoby nesmí do skla

Dan Rosendorf, ICZ: Přehnaná regulace svírá celé odvětví

Za smrt slavné spisovatelky nejspíš mohla nemoc nebo taky arsen

Tři oříšky pro Seznam. Popelka bude jinde než obvykle

Boží hod vánoční je pro křesťany nejdůležitějším svátkem

Zdravotní pojištění nebude začínajícím OSVČ odpuštěno

Změny a novinky od roku 2025 v kostce