ChatGPT teď má zrak, umí poslouchat a mluví. Tak firma OpenAI představuje novinky ve svém AI chatbotu. Během následujících dvou týdnů se jich nejprve dočkají uživatelé placené a firemní verze aplikace, později i ostatní.
Uživatelé nově budou moci doprovázet své dotazy na ChatGPT jedním nebo více obrázky. Služba automaticky rozpozná, co na fotografii je a bude schopná tuto informaci využít v rámci konverzace.
OpenAI na propagačním videu uvádí příklad, kdy ChatGPT na základě fotky bicyklu radí uživateli, jak může změnit polohu sedla, a po nahrání snímku krabice s nářadím dává instrukce, který konkrétní nástroj k tomu má použít.
Zatímco rozpoznání obrazu bude možné jak ve webovém rozhraní, tak v mobilních aplikacích ChatGPT, další novika se týká jen aplikací pro Android a iOS. Jde o oboustrannou hlasovou komunikaci.
Zadávat dotazy hlasem je v ChatGPT možné už delší dobu. OpenAI pro přepis mluveného povelu do textu používá svou službu Whisper. Nově bude aplikace umět také hlasově odpovídat.
OpenAI ke generování umělého hlasu používá text-to-speech model, který převádí text do mluvené řeči. V ChatGPT si uživatelé budou moci zvolit jeden z pěti hlasů, který firma vygenerovala ve spolupráci s profesionálními herci.