AI nástroje, jako jsou GPT, Whisper nebo Dall-E, zpřístupnily novinářům zajímavé technologie i bez znalosti programování. Za odpoledne je dokáže na svém serveru zprovoznit kdokoliv, kdo umí napsat pár řádek kódu, říká datový novinář Českého rozhlasu Jan Cibulka, který v redakci serveru iRozhlas.cz s AI pomocníky experimentuje.
Nejde ale o to, aby generátory textu či obrázků nahradily v médiích novináře. „My spíš doufáme, že zafungují stejně, jako zafungovaly v médiích už v minulosti. Že novinářům umožní věnovat se sofistikovanějším úkonům a dělat zajímavější věci,“ vysvětluje.
Proč se generátory textu nedají využít k psaní článků? Jak novinářům ulehčuje život nástroj na převod zvuku do textu? A jaké zkušenosti novináři z iRozhlasu s testováním AI nástrojů mají?
Část rozhovoru jsme přepsali do textu, celý si jej můžete poslechnout ve formě podcastu na službách Spotify, Apple Podcast, Google Podcast nebo přímo zde:
V poslední době se pořád všude mluví o tom, jak generativní AI a velké jazykové modely změní novinařinu, co všechno díky nim bude moct dělat a kolik novinářů přijde o práci, protože už nebudou potřeba. Honzo, ty už některé nástroje testuješ. Co všechno na iRozhlas.cz používáte a jaké s tím máte zkušenosti? Předpokládám, že používáte přepis zvuku do textu, to je asi v rozhlase dost podstatná věc.
Ano, používáme to, co asi teď používají všichni novináři, a to je Whisper, to znamená model od OpenAI, který si člověk může self-hostovat. My si ho spouštíme sami, nemusíme tedy platit žádnou licenci, platíme jenom potřebný výpočetní čas. Výhoda Whisperu je v tom, že zvládá velmi dobře a velmi rychle přepisovat i zvuk, který není v úplně studiové kvalitě.
My už něco na přepis zvuku ze studia máme a funguje to vlastně dobře, ale problém je, že ve chvíli, kdy má přepisovat třeba rozhovor z kavárny na telefon, což je nahrávka, kterou typicky píšící novináři mají, přepis se velmi rychle utrhne a prostě není dobrý. Whisper to do značné míry řeší, protože je schopný velmi dobře přepisovat rozhovor, kde je v pozadí slyšet magistrála, nebo rozhovor z ulice. V tomhle směru nám do budoucna bude hodně pomáhat.
Zatím ho testujeme, máme všechno nasazené v maličkých modulech, na které si redaktoři můžou sahat, ale do budoucna to pravděpodobně budeme více integrovat. Výhoda Whisper je také v tom, že dobře funguje v češtině. Pro někoho ze zahraničí to není zas tak velký pokrok, pro novináře v anglických mluvících zemích je úplně běžné, že mají dobrý nástroj na přepis, a už by je vlastně vůbec nenapadlo, že někdo přepisuje rozhovory ručně. Ale na český jazyk se dosud nikomu nevyplatilo přímo zaměřit, a z toho důvodu jsme vlastně opravdu solidní model zatím neměli.
Whisper umí i překlady mezi různými jazyky, zkoušeli jste jej třeba pro zahraniční vysílání nebo něco podobného?
Umí zatím překládat jen do angličtiny. Používáme ho většinou na přepis češtiny, občas angličtiny, obojí funguje dobře. Samotný Whisper nedělá diarizaci, to znamená odlišování mluvčích, to už máme nějak rozpracované knihovnama, které nám nejdřív rozhovor rozkouskují. Whisper umí výsledek vracet i ve formátu filmových titulků, to znamená včetně časových značek, kdy promluva začala a skončila, takže jsme potom schopni texty rozdělit do odstavců podle jednotlivých mluvčích.
Server Lupa.cz slaví 25. narozeniny. K výročí vám nabídneme sérii textů, podcastů a offline diskusí k dopadům AI na podobu internetu. Vše najdete na této speciální stránce.
Já Whisper používám v testovacímu modu, ne přes API, ale hlavním problémem je, jak říkáš, že na výstupu dostanu soubor s proudem textu, který si pak stejně musím zeditovat, rozdělit mluvčí a podobně. Takže s API a s dodatečnými úpravami to jde nastavit lépe?
API ani není nutné, my se od něj vlastně odkláníme. Je dobré na vyzkoušení, člověk si založí účet, může začít nahrávat soubory a velmi rychle vidí výsledky. Navíc je extrémně levné. API ale má také technické limity, nebere soubory nad 25 MB, takže musíš řešit už na serverové straně nebo na straně uživatelů dělení do více souborů nebo snižování kvality zvuku. A ve chvíli, kdy začneš řešit složitější způsoby používání, které ale vlastně vyvstanou velmi rychle, jsi jenom krůček od toho stáhnout si model zkompilovaný třeba pro C, sám si ho nasadit a provozovat na vlastním železe.
To zní hodně dobře, přepisování rozhovorů byla vždycky obrovská bolest. Jak jsem říkal, Whisper taky už nějakou dobu testuju a zatím jsem opravdu nezaznamenal, že by v češtině existoval nástroj, který by dával takhle spolehlivé výsledky. Napsali jste si k němu pro novináře nějaký frontend?
Takový velmi, velmi rudimentární. Je to jednoduchá stránka, kam člověk nahraje soubor a vypadne mu výsledek. Do budoucna ale samozřejmě tím, že pracujeme s nějakými systémy, nejspíš půjdeme cestou nějaké integrace.
Tak to je přepis zvuku do textu. Opačným směrem zatím asi nejdete.
Máme experimentální projekt opačným směrem, bude to něco k výročí sta let rozhlasového vysílání. Nevím, jak moc o tom můžu mluvit. Asi se můžeme bavit o tom, že v nějaké střednědobé budoucnosti budeme experimentovat i víc, ale nejde o to, že bychom nahrazovali moderátory strojem.
Rozumím. Microsoft nedávno představil neuronovou síť VALL-E, která umí poměrně dobře napodobovat hlasy, ale zatím ji neuvolnil kvůli tomu, že existují možnosti jejího zneužití, že by se třeba někdo mohl vydávat ze někoho jiného. Ale ta technologie evidentně už je na světě.
Vidíme to v zahraničí, kde existují vyloženě uživatelské nástroje, které umožňují nahrát pár vzorků zvuku a vytvoří velmi věrnou simulaci hlasu. Už se samozřejmě používají k obcházení různých biometrických telefonických bezpečnostních prvků v bankách. Konkrétně s napodobováním hlasu asi v budoucnu bude docela mrzení.
To nejspíš bude. Ale v rozhlasu by se tahle technologie dala nejspíš hezky využít.
Asi ano. Dovedu si představit třeba nějaký personalizovaný obsah, kdy si člověk může nechat zpravodajství namlouvat svým oblíbeným hercem, ale to je samozřejmě v daleké budoucnosti.
Hodně se dneska píše o velkých jazykových modelech, jako je GPT, který dnes už má čtvrtou generaci. Umí hezky vytvářet souhrny textu nebo psát. Používáte v rozhlase aktuálně i GPT-4?
Zase, testujeme to, ale nic nenasazujeme úplně na ostro, že už by to bylo součástí redakčních procesů. Zkoušíme, kam by se to v iRozhlasu dalo začlenit. Nepůjde o to, že by nám GPT-4 generovala texty, a nebude to tak, že by rozhodovala o článcích, protože to se tomu jednoduše nedá svěřit i s ohledem na náš kodex a editoriální pravidla. Je to ale nástroj, který může ulehčit rutinní práci.
Řada kroků, které se v médiích dělají, jsou opakované činnosti. Vidím trošku paralelu s těmi přepisy. Dosud vyžadovaly lidskou sílu, ačkoli jde vlastně o standardizovaný úkon. Tyto úkony bychom možná mohli řešit počítačem už v minulosti, jenže nasazení systému, který by je vykonával spolehlivě, by bylo poměrně technicky náročné. Velké generativní modely ale jsou dnes už ve stavu, kdy je jsou schopné zvládat docela dobře. Jde třeba o vyplňování klíčových slov, do budoucna doufám, že budou například tagovat fotky, provádět nějaké úplně základní kontroly textu pro autora a podobně.
Dnes je strašně jednoduché tyto nástroje nasadit. Člověk prostě vezme API klíč a jedním velmi levným zavoláním na server OpenAI dostane výsledek. Nevyžaduje to žádné velké programování. Modely dnes jsou schopné pracovat s širším rozptylem údajů a umí dávat smysluplné výsledky i bez nějaké velké přípravy vstupních dat.
Říkáš, že podle tebe nebudou tyto systémy v dohledné době za novináře psát články. Zkoušeli jste to? Třeba jestli GPT-4 opravdu pořád tolik halucinuje, čili si vymýšlí, nebo jste to raději ani netestovali?
Samozřejmě, že každý, kdo pracuje s textem, si to vyzkoušel. Zadal nějaký svůj článek, který napsal v poslední době, a sledoval, co z GPT vypadne. Reálně vlastně doporučuju si to vyzkoušet, nechat stroj ten text napsat a pak ho zkusit ukázat nějakému editorovi. Ty články jsou hodně obecné, opakují se, není to nic, co by se dalo opravdu publikovat. A teď vůbec neřeším jejich faktičnost, která je často problematická.
Přinejlepším se dá říct, že jde o brainstorming a autor, který třeba měl náročnější večer a ráno sedí před bílou stránkou, má něco napsat a úplně mu hlava nejede, si může pomoct tím, že si návrh nechá nagenerovat něčím takovým, pak se k tomu interně vymezí a nějak ho to odpíchne z místa. Ale je to spíš mentální pomůcka pro autora, než že by to mohlo psát články.
Překvapil mě třeba jeden pokrok. Když člověk řekl GPT 3.5, aby svůj text ozdrojovala, tak ta umělá inteligence vracela citace, které neexistovaly, vymýšlela si je od začátku do konce. Čtyřka už cituje korektně existující odborné práce. Ještě budu zkoumat, jak moc relevantní věci vrací, jestli je na úrovni studenta bakalářského studia, který má napsat esej, nebo jestli je třeba schopnější. Ale zase to je pomocný nástroj.
Vidím tady zase analogii s Whisperem: nejde o to, že by tyto technologie nahradily lidi nebo novinářskou úvahu, ale umí ušetřit rutinní úkony. Tohle nám technologie v médiích dělají dlouhodobě. Hledáme způsoby, jak pomoci se spoustu věcí, které se pořád dělají ručně, a přitom by se ručně dělat nemusely. Přemýšlíme o tom třeba v kontextu publikování agenturního zpravodajství, kde nám s poměrně malým vývojářským úsilím může ulehčit práci. Ale pořád to není tak, že by vytvářela obsah, zastává je podpůrnou činnost okolo.
Co konkrétně tedy s GPT-4 v rozhlase testujete?
Třeba generování klíčových slov, a to několik druhů. Jednak tagy, které jsou určeny pro viditelnost článků ve vyhledávačích, ale třeba taky tvorbu klíčových slov podle hesel Wikipedie s ohledem na kategorizace a řazení článků. Taky zkoušíme, jestli by to třeba nemohlo navrhovat titulky, ale ne v tom smyslu, že je autor vezme a překlopí na web. Spíš jako pomůcku, která mu pomůže se odpíchnout k tomu, o čem by mohl přemýšlet.
Pak různé převody textů mezi různě dlouhými formáty. Mám třeba post na Facebook a zároveň vím, že to potřebuji dát i na Twitter, tak požádám umělou inteligenci, aby mi příspěvek zkrátila a opatřila emoji. A zase, není to něco, co by člověk jedna ku jedné vzal a dal na internet, ale trochu mu to pomůže, zrychlí to přemýšlení.
Distribuce obsahu různými kanály, s různým zaměřením, o různé délce, s různým stylem, mi přišla jako dobrý úkol, který by GPT mohla zvládat poměrně dobře. Máte tedy opravdu z praxe zkušenosti, že to umí?
My používáme GPT 3.5, protože GPT 4 si zatím můžeme vyzkoušet jenom v playgroundu, kde je velké množství omezení. Pro nás je zásadní mít přístup k API, abychom to mohli do něčeho integrovat. Ale předpokládáme, že ve chvíli, kdy se odemkne čtyřka, jen vyměníme ve volání API jméno modelu.
Vrátím se ještě jednou k tomu, když jsi říkal, že GPT a další podobné nástroje nebudou nikdy psát celé články. Ještě před příchodem těchto velkých jazykových modelů se už s něčím podobným v médiích experimentovalo. V Česku třeba agentura ČTK zkoušela automaticky generovat na základě šablon krátké články s finančními výsledky a podobně. Neplánujete něco podobného?
Je otázka, jestli je potřeba, aby tento typ obsahu vůbec vznikal. Určitě není těžké vzít data tak, jak je zpracováváme k volbám, a napsat pro každou obec v České republice, že vyhrála strana ta a ta, se ziskem takovým a takovým, před druhou a třetí stranou, těmito rozdíly.
Ale ten článek není úplně zajímavý a my jsme schopní stejnou informaci čtenářům poskytnout daleko líp. Dáme jim k dispozici mapu, kde si najdou svou obec, vidí tam současné výsledky, vidí tam historické výsledky. Tohle je možná typ informací, ze kterých nemusí vznikat textové články. Jsme schopni je ukázat efektivně i grafem, mapou, vizualizací, srovnáním. Ne všechno, co novinář vytvoří, musí být hromada písmen.
Myslím si, že to vidíme i na čtenářích, kteří nechtějí číst čtyři odstavce textu, aby se dozvěděli něco, co můžou získat jedním kliknutím z grafu. Tyhle jednoduché úkony už jdou dělat strojově, otázkou je, jestli je to vůbec potřeba.
Takže slepá ulička.
Jak pro koho. Pokud mám web, který potřebuje točit návštěvnost, protože na něm prodávám reklamu – a teď odhlížím od ČTK, která dělá dobrou práci – ale pokud obecně mám web, který potřebuje velké množství obsahu, může to pro něj být přechodná cesta. Zkoušel to CNET, nedopadlo to úplně dobře. Nicméně ano, je to způsob, jak různé technologie donutím interagovat tak, aby z toho ve finále vypadly peníze z reklamy. Není to ale něco, co by čtenáři vyhledávali nebo čím bych kultivoval veřejnou debatu.
Tak už to vypadá, že média žádné redaktory v redakcích neušetří, když za ně GPT nebo nějaký jiný systém nebude psát články.
My spíš doufáme, že technologie zafungují stejně, jako zafungovaly v médiích už v minulosti. Že novinářům umožní věnovat se sofistikovanějším úkonům a dělat zajímavější věci. Dovedu si samozřejmě představit, že některé redakce pod finančním tlakem řeknou: tohle zrychlilo naši práci, takže můžeme někoho propustit.
Ale myslím, že to je extrémně špatná cesta a špatná zpráva. Technologie přece máme využít k tomu, abychom mohli svou práci dělat lépe, třeba při stejném počtu lidí. Ne, abychom ji mohli dělat stejně špatně jako v menším počtu lidí.
Zatím mám pocit, že se české redakce ke zkoušení AI technologií nestaví úplně vizionářsky a přátelsky a že těch experimentů moc neprobíhá. Vím, že třeba na Živě.cz, což je technologický server, hodně experimentují s generátory obrázků. Ale jinak mám pocit, že v Česku nikdo nic moc nedělá.
Nemůžu hodnotit jiné redakce. Na druhou stranu si dovedu představit, že mediální manažeři vyčkávají, až to někdo vyzkouší. Jak jsem říkal, nasazení je technologicky snadné. To, co jsem dnes tady popisoval, není žádné tajemné know-how, které nikdo nemá. Jde o věc, kterou je schopný za odpoledne nasadit kdokoliv, kdo umí napsat pár řádek kódu v nějakém programovacím jazyce.
A to je právě ta změna. Technologie, které vidíme třeba v produktech OpenAI, jsou extrémně dostupné i lidem, kteří nejsou programátoři nebo nemají velký vývojářský tým. Skoro bych čekal, že to možná trochu srovná laťku mezi velkými a malými médii. V tom smyslu, že si malá média najednou sáhnou na technologie a efektivitu práce, které dřív byly vyhrazené jenom opravdu velkým redakcím.
Poslechněte si celý rozhovor ve formě podcastu: