Všechny technologické společnosti, které dnes vídáme ve zpravodajských titulcích, to vědí. Ať už je to ChatGPT, technologie, která s vámi plynule vede rozhovor o prakticky jakémkoliv tématu, nebo Dall-E, která vám na textové zadání namaluje obrázek, všude stála na počátku stejná potrava pro tyto umělé neuronové sítě – obsah. Tvůrci systémů to nenápadně maskují, když tento obsah, tato data použitá pro učení svých systémů, označují jako „tréninková data“ nebo „učení bez dohledu“ (tzv. unsupervised learning). Bez takového obsahu by tyto nástroje jednoduše neexistovaly.
Server Lupa.cz slaví 25. narozeniny. K výročí vám nabídneme sérii textů, podcastů a offline diskusí k dopadům AI na podobu internetu. Vše najdete na této speciální stránce.
Generativní systémy umělé inteligence jsou závislé na stahování obsahu ohromného počtu webových stránek. Ukazuje se, že při takovém masivním procházení webu jen omezeně berou v potaz, zda autor obsah zveřejnil se svolením k takovému užití. Kdo věří, že tyto systémy, podobně jako třeba internetové vyhledávače, respektují zavedené standardy pro zákaz crawlování obsahu (například tzv. robots.txt), je bohužel naivní.
Diskuse o využívání sofistikovaných technologií umělé inteligence v posledních měsících zjevně vycházejí z jedné veliké bezmoci a zoufalství. Z přesvědčení, že velké nadnárodní společnosti zabývající se umělou inteligencí si budou dělat, co chtějí, a my nemůžeme dělat nic nebo jen velmi málo, aby se tak nedělo. Kolikrát jsem byl v posledních týdnech na toto téma konfrontován rozhozením rukou a konstatováním v duchu „pokrok nezastavíš“ nebo ještě výmluvnějším „co je na internetu, je přece pro všechny zadarmo, ne?“. I snaha o přirovnání k internetovým vyhledávačům v tomto případě pokulhává, protože v jejich případě mají provozovatelé webů možnost o užití obsahu pomocí standardizovaných nástrojů rozhodovat a zároveň jim přivádí nějakou návštěvnost.
Nechápejte mě špatně. Umělá inteligence bez pochyb je důležitým pokrokem pro celou společnost. Není ale zároveň pochyb, že všechny tyto systémy vznikají s cílem vytvářet pro jejich autory a provozovatele v budoucnu zisk. Zrovna velké, nadnárodní technologické společnosti navíc mají dostatek prostředků na to, aby tento pokrok budovaly na pevných nohách tréninkových dat, které získají v souladu s hodnotami, které ve společnosti snad ještě stále vnímá většina stejným způsobem.
Všichni tvůrci obsahu by měli začít zvažovat svůj dlouhodobý přístup k těmto generativním systémům umělé inteligence, protože tyto systémy od nich v současné době získávají to nejdůležitější pro své fungování zcela zdarma. Na pozoru by měli být také autoři fotografií a provozovatelé fotobank, jejichž obsah je dostupný online, stejně jako fotografie běžných uživatelů sociálních sítí, nebo třeba programátoři, kteří pro hostování svých projektů používají nástroje jako GitHub.
Není divu, že se v závěru loňského roku objevily první iniciativy jako „No AI Art“, které nezákonné vytěžování obsahu umělců hlasitě kritizují a připomínají, že systémy jako Dall-E nebo Midjourney generují obrázky ze zadaných vět díky modelům, které byly bez souhlasu autorů postaveny a naučeny na stovkách tisíc umělecký děl a fotografií autorů, kteří k tomu nikdy neudělili souhlas.
Situace je pro všechny tvůrce obsahu komplikovaná kvůli složité důkazní situaci. O něco horší je to pak s psaným textem než třeba s obrazovými díly. Obsah vystavený online je z principu dostupný komukoliv, pokud přístup k němu není nějak fyzicky limitován, například nutností přihlášení. Určit, zda váš obsah byl použit tvůrcem modelu pro umělou inteligenci, spolehlivě nelze, pokud tvůrce modelu nedá k dispozici soubor vstupních dat, která pro učení systému použil. Ironický úsměv na tváři pak vzbuzují projekty jako haveibeentrained.com, které nabízí autorům obrazových děl opt-outovat svá díla z některých používaných datových sad pro učení systémů umělé inteligence, pokud je autoři v systému všechny vůbec dohledají a označí.
Evropská komise v květnu 2021 předložila do legislativního procesu návrh nařízení, kterým se mají stanovit pravidla pro umělou inteligenci, tzv. AI Act. Návrh je od té doby stále v legislativním procesu. V textu předpisu se dočtete, že ambicí návrhu je mimo jiné řešit výzvy v této oblasti, jako je neprůhlednost systémů umělé inteligence, aby bylo možno zajistit jejich kompatibilitu se základními právy EU.
Bude bez pochyby důležité, aby se v probíhajícím legislativním procesu podařilo zapracovat všechny dosavadní zkušenosti, i ve vztahu k tzv. tréninkovým datům. Tyto výzvy, se kterými se oblast umělé inteligence potýkala vždy a od svého vzniku, se až dnes zásadním způsobem začnou zviditelňovat díky popularizaci nástrojů, které začnou být dostupné pro velké masy uživatelů. Proti tomu budou stát argumenty, že Evropa bude v oblasti umělé inteligence zaostávat, když zbytek světa je díky svému liberálnějšímu a otevřenějšímu přístupu k technologiím umělé inteligence vstřícnější. Pravda bude, jak to tak bývá, někde uprostřed.
Zajímavé bude sledovat dopady do již existující legislativy, jakou je například tzv. Copyright směrnice (Směrnice o Evropském právu na jednotném digitálním trhu). Evropští vydavatelé strávili posledních téměř 10 let bojem s nadnárodními technologickými giganty o nárok na spravedlivou odměnu za užívání jejich obsahu online platformami. Výsledkem byla v roce 2018 směrnice o autorském právu na jednotném digitálním trhu.
Vydavatelé argumentovali zejména tím, že ve výsledcích hledání dominantních internetových vyhledávačů dochází na straně platforem k monetizaci jejich obsahu, za což nadnárodní platformy vydavatelům a autorům nic neplatí. Nejspíše jste si všimli, že od konce roku 2022 ukazuje tuzemská mutace Google vyhledávání u některých výsledků jen prosté odkazy, bez tzv. snippetu. Krátce před tím, než transpozice této Evropské směrnice začala platit v českém právním řádu, totiž společnosti Google a Meta upravily na konci roku 2022 své služby tak, aby obsah médií údajně přestaly užívat, a vydavatelům tudíž nemusely hradit odpovídající odměnu. K neužívání obsahu vydavatelů ale ve skutečnosti platformy nikdy nepřistoupily.
Je zřejmé, že toto tažení autorů a vydavatelů proti velkým nadnárodním platformám získá s nástupem umělé inteligence zcela nový rozměr. Právě díky nastupující popularizaci nástrojů umělé inteligence se ukáže, jaká je v případě technologických gigantů skutečná míra bezplatného užívání obsahu, který jim nepatří. S odstupem let bude zjevné, jak se v důsledku toho navýší platby, které budou muset platformy hradit autorům a vydavatelům po celém světě. Tvůrci obsahu zcela jistě nebudou chtít zůstat těmi, kdo bezplatně odvádějí práci pro nadnárodní hráče, kteří jsou navíc téměř všude po světě v dominantním postavení na svých trzích.