Ono to často ty obrázky umí díky externího api a ten původní model o tom "neví". Přijde prompt a kromě toho, že se dostane do hlavního modelu, tak ho ihned analyzuje menší (=rychlejší) účelový model, který mj. vygeneruje popisek chatu a pokud zjistí požadavek na obrázek, tak to pošle dál (většinou asi do fluxu a stable diffusion). Stejně tak při analýze co je na fotce. Mám tak lokálně workflow přes několik modelů. Chat probíhá s Gemma2, nebo llama2 v češtině. Na rozpoznání co je na fotce používám llava (13b), ale ten komunikuje jen anglicky. Takže je mezi nimi další model, který dělá překlad mezi llama a llava a "oni" o tom "neví" :)
Každopádně zajímavé experimenty, překvapilo mě, jak snadno lze spustit lokálně celkem kvalitní modely klidně i na CPU.
ollama.com, msty.app, open-webui, ComfyUI
btw. ten mistral model se dá stáhnout taky, mistral-nemo je celkem zajímavý: https://ollama.com/search?q=mistral