David Čaněk (Memsource): Dodáváme Uberu, ale s lepším obchodem a marketingem jsme mohli být dvakrát větší

19. 8. 2020

Doba čtení: 9 minut

Americký fond Carlyle koupil majoritu v českých Memsource, ocenil je na 1,3 miliardy. Svět automatizovaných překladů představuje rostoucí lukrativní byznys.

Memsource je od roku 2010 fungující česká technologická společnost, která se zabývá vývojem cloudového překladatelského softwaru a ve které letos v červenci koupil majoritní podíl slavný americký fond Carlyle Group s aktivy přes 200 miliard dolarů. Firmy přesnou výše investice nesdělily, podle informací Lupy byl ale Memsource oceněn na zhruba 1,3 miliardy korun. Vstup investora má posloužit k expanzi na trzích v Severní Americe a Asii.

Memsource má mezi zákazníky Uber nebo Zendesk a letos má v tržbách meziročně vyrůst o třicet procent na asi deset milionů dolarů. Zakladatel a výkonný ředitel společnosti David Čaněk v rozhovoru pro Lupu mimo jiné popisuje, že by firma dnes mohla být až dvojnásobná, kdyby na začátku začala dělat marketing a obchod stejně dobře jako technickou část. Právě absence prodejních zkušeností dle jeho slov brzdí české startupy oproti konkurenci ze Silicon Valley.

Deset let jste rostli bez externího kapitálu a nedávno jste prodali majoritní podíl a otevřeli se vstupu investora. Co vás k takovému rozhodnutí vedlo?

Minulý rok pro nás byl výrazně ziskový, takže jsme finanční důvody k získání investice neměli. Objevilo se ale několik motivů. Memsource jsem založil já, přibral jsem kolegu a později se podílníky stali čtyři klíčoví inženýři. Bylo nás šest a kolega ze začátku fungování firmy se rozhodl, že nebude pokračovat. Prodal svůj kompletní podíl. Dalším důvodem pro vstup Carlyle Group bylo to, že jsme po deseti letech chtěli změnu. Mohli jsme pokračovat v růstu organickým způsobem, ale přišlo nám zajímavé spojit síly s někým, kdo má kapitálovou sílu, abychom například mohli udělat nějakou akvizici.

Tržní hodnota Carlyle Group přesahuje devět miliard dolarů a spravuje aktiva za více než 200 miliard dolarů, zatímco vy jste z jeho pohledu velmi malý hráč. Začíná se na vašem trhu něco zajímavého dít, když do vás někdo takový vstupuje?

Odhad velikosti překladatelského odvětví je dnes mezi dvaceti až čtyřiceti miliardami dolarů, dle mého je to spíše kolem těch dvaceti. Velkou částí tohoto trhu jsou firemní překlady včetně lokalizace softwaru, titulkování videí a podobně. Technologie zde už nyní hraje velkou roli a bude hrát ještě větší. Jakmile přijdeme na to, jak smysluplně pro tyto a další účely využít strojový překlad, může to znamenat průlom. Prozatím je to na začátku a jde o věc, kterou se snažíme vyřešit.

K čemu konkrétně vstup investora využijete?

Začínali jsme jako technologická firma a většina lidí, kteří stáli u zrodu, byli inženýři. Teď musíme dohnat obchod a marketing. Je známá věc, že české startupy jsou dobré v technologii, ale v obchodu méně. Na trhu práce u nás můžete sehnat opravdu špičkové programátory, ale špičkových marketérů schopných postavit globální marketing je tady strašně málo. Řešíme, jak marketing a sales dostat na špičkovou úroveň, stejně jako to máme u engineeringu.

Ano, to je poměrně běžný rozdíl českých projektů oproti těm ze Silicon Valley a USA obecně. Tam produkt často nemusí být na tak dobré technické úrovni jako u nás, ale díky marketingu a prodejům je podstatně úspěšnější. Jsou zde reálné možnosti to změnit?

To je velmi zapeklitá otázka. Při stavění týmu v Silicon Valley narazíte na velké náklady. Zároveň by lidé byli daleko od pražské centrály a my hodně pracujeme jako propojený tým. I vývojáři se občas zúčastňují jednání, která jsou více obchodní, případně mají nápady na zlepšení marketingu. Zároveň jsou pro nás zajímavé trhy jako Japonsko, Asie a Evropa. Pro nás tedy není jednoznačnou odpovědí postavit marketing a prodej ve Valley. Je to velký problém a musíme schopné lidi přivést do Prahy a Česka, což už se občas děje, ale pořád je to slabé. Najít lidi je strašně těžké, nejsou.

Brání tedy rozletu českých startupů obchodní část? Na zdejších SaaS projektech například pozoruji, že se pořád učí dělat věcí jako pricing a mohou mezi sebou jen omezeně sdílet informace, což už jinde mají vyřešené.

To rozhodně, je to přesně tak. A úplně stejné to bylo v našem případě a opravdu hodně nás to zdrželo. Na druhou stranu si nemohu stěžovat, rostli jsme a rosteme perfektně. Kdybychom ale od začátku správně nastavili marketing a obchod a měli ho v podobné kvalitě jako technickou část, jsme možná i dvakrát větší. Zároveň jsme se příliš neangažovali v pražské komunitě, vidět a slyšet o nás nebylo. Bylo to i kvůli tomu, že jsme nevěděli, co dříve, nezískávali jsme peníze od lokálních investorů a zákazníky máme mimo Česko. Určitě by více pomohlo, kdyby se tady více sdílely informace a zkušenosti.

Autor: Memsource

David Čaněk, Memsource

Mezi zákazníky máte zvučná jména typu Uber, SuperCell, Zendesk, Fujifilm a další. Jakým způsobem děláte obchod?

Hodně jezdíme na lokalizační a překladatelské veletrhy. Už jsme jeden z hlavních poskytovatelů systémů pro překládání (velkými konkurenty jsou Smartling a SDL Trados – poznámka redakce) a během deseti let jsme si stihli vybudovat jméno. V povědomí nebo ve vyhledávání už jsme. Máme samozřejmě obchodníky a v získávání velkých zákazníků se osobně částečně angažuji napřímo i já.

Jak daleko jste ve strojovém překladu?

U firemních překladů je nutné automatizovat dvě věci. Jednou z nich je workflow, kdy obsah „sedí“ v nějaké databázi či content management systému (CMS) a vy ho potřebujete dostat k tomu, kdo ho bude překládat nebo testovat. Workflow management je jednou z věcí, kterou se snažíme automatizovat. Jde o takzvané translation management systémy a snažíte se dosáhnout toho, aby existovala jakási automatizovaná „výrobní linka“ pro překlady. Druhou úrovní automatizace je samotný překlad. Ten může udělat lidský překladatel, korigovat ho korektor a na konci je ještě tester. Nebo tento překlad vygenerujete automaticky.

V roce 2017 jsme založili oddělení pro umělou inteligenci, kde jsme tyto a další úlohy začali řešit. Také jsme si říkali, zda vyvíjet vlastní strojový překlad, ale došli jsme k tomu, že to dělat nebudeme. A to kvůli tomu, že firem, které do oblasti investují, je hodně a zároveň to jsou největší technologické společnosti na světě. Ale existuje jedna věc, kterou neřeší, a sice celou řadu problémů, jež je nutné vyřešit pro to, aby strojový překlad byl užitečný.

Opět se dostáváme k problémům s workflow. Kdo si někdy zkoušel natrénovat engine strojového překladu pomocí svých dat, aby zlepšil kvalitu a aby překlad odrážel terminologii dané firmy, ví, že jde o velmi manuální proces. Data se musí exportovat, očistit, importovat, dále je nutné řešit kolize, spustit trénování, udělat testování a hodnotit kvalitu.

Musíte také řešit, který engine použít na jaký dokument a jazykový pár. Neexistují ani indikátory kvality. My podporujeme asi třicet enginů pro strojové učení, včetně například těch od Microsoftu a Amazonu, a snažíme se řešit všechny překážky na cestě, aby strojový překlad byl užitečný a aby se na něj bylo možné spolehnout. Vybíráme nejvíce kvalitní strojový engine pro triplet „zdrojový jazyk – cílový jazyk – dokument“. Zároveň kvalitu strojových překladů řešíme na úrovni jednotlivých vět.

Takže jste takový switch, který posílá informace na správná místa?

Takové přirovnání je možné. Vybíráme nejvhodnější technologie a podobně. Zároveň nejsme překladatelská agentura a pro cílového zákazníka jsme překladatelská platforma, ve které jsou data týkající se překladu centralizovaná. Jsme takový zdroj pravdy, kde vidíte, co bylo do jakých jazyků přeloženo, co přeloženo není, co jak dlouho trvá, jaké jsou a budou náklady, kde je jaká chybovost. Ke switchi to tedy určitým způsobem jde přirovnat, ale jsme také centrální úložiště lokalizačních dat a platforma, kde vše probíhá. Celý překlad i korektura probíhají v Memsource.

Jak vypadá celý proces? Na začátku se napojíte do CMS a co se děje pak?

Míra integrace je odlišná od velikosti zákazníků. Používají nás jednotliví překladatelé i třeba Uber. U něj existuje integrace mezi Memsource a jejich CMS systémy. Těch Uber používá celou řadu, takže mají ještě takový vlastní hub koncentrující všechna data. My se připojujeme až na tento hub. Firemní zákazníci typu Uber pak často mají několik překladatelských agentur, jež opět mají integraci s Memsource. V obou případech se integrace děje přes API, případně přes naše konektory. Ty máme například pro WordPress, Adobe Experience Manager a další. Data z CMS tedy proudí k nám, kde si je bere překladatel, a jakmile je proces hotový, překlad se přes Memsource vrátí do CMS.

Čím se zabývá vaše AI divize?

Jak jsem už říkal, rozhodli jsme se, že nebudeme vyvíjet engine strojového překladu. Místo toho řešíme to, kde můžeme mít něco unikátního, přičemž některé funkce máme patentovány v USA. První věc, kterou jsme uvedli v roce 2017, vychází z našeho vhledu do dat, která v Memsource byla. Viděli jsme, že zákazníci nechávají překládat stringy v softwaru, jejichž překlad se oproti originálu nezměnil. Bylo to 15 procent těchto stringů. Vy tedy posíláte něco na překlad, ale překladatel řekne, že to má zůstat stejné. Na základě těchto dat jsme natrénovali neuronovou síť pro rozpoznávání toho, zda je daný string nutné překládat. Dáváme k tomu i pravděpodobnost toho, jak moc je naše rozhodnutí správné.

Další věcí je něco, čemu se říká machine translation quality estimation. To je úloha, kdy vám strojový engine vrátí překlad a vy chcete vidět, zda a jak moc kvalitní je. Když je výstup pro daný string málo kvalitní, pošlete ho na lidský překlad. Když je vysoce kvalitní, může proces lidského překladu vynechat. Tohle zefektivňuje využití strojového překladu.

V jaké fázi spolehlivého strojového překladu jste, aby nebyly nutné zásahy lidských editorů či překladatelů? Doteď si pamatuji, jak mi v Microsoftu v Redmondu po koupi Skypu říkali, že už brzy si přes tento nástroj budeme volat každý jiným jazykem a v reálném čase uvidíme překlady…

Je důležité rozlišovat různé způsoby využití (use cases). Už jsme v situaci, kdy pro určité jazykové páry typu „angličtina – španělština“ a podobně už strojový překlad může dosáhnout velmi vysokých kvalit. Je nutné mít udělané správné nasazení, integrovány best practices a dobré natrénování na datech. To se hodí třeba na technické dokumentace. Zmiňoval jste Microsoft – ten provozuje knowledge base a česká mutace je strojově přeložená.

V některých podobných případech jsou strojové překlady zcela srovnatelné s lidskými. Na Matfyzu dokonce natrénovali překladač na zpravodajství. Výsledky měl srovnatelné a někdy i lepší než lidský překladatel. Stále jde o úžeji zaměřené případy, se kterými je třeba si vyhrát a zainvestovat do nich.

Pak jsou věci typu marketingového obsahu. Zde se překladům často neříká translation, ale transcreation, kdy je třeba si s překladem trochu pohrát, dát nějaké tóny, styly. Tam strojový překlad asi ještě dlouho nebude stačit. U zdravotnických materiálů a dokumentů to zase z regulačních důvodů není možné. Vývoj nicméně bude postupný a už se děje.

Jak vypadá váš technologický stack?

Jsme cloudová aplikace s poměrně hodně komponentami. Pro AI používáme TensorFlow, pro data využíváme Hadoop, dále Kafku a hodně Elasticsearch pro potřeby vyhledávání. Nasazené máme MariaDB, MongoDB. Na straně kódu používáme C++, Vue.js a další.

Dříve jsme si pronajímali vlastní fyzické servery, v jeden okamžik jsme jich v produkci měli dvě stovky. Z provozních, bezpečnostních a kvalitativních důvodů jsme loni přešli na Amazon Web Services. Obecně jsme SaaS firma a naší preferencí je využívat rovněž SaaS produkty. Obecně jsou často dražší, ale když si něco takového provozujete sami, skrývají se za tím náklady, které často nejsou hned vidět. U serverů pak odpadají věci typu, kdy potřebujete honem rychle přidat deset strojů, ale prostě je nemáte nebo je hned nemá dodavatel. Když potřebujete zvýšit kapacitu během hodiny, jsou AWS a spol. asi jediné řešení.

Poznámka redakce: Pro detaily o technologickém pozadí Memsource doporučujeme český podcast SCRIPTease, kde je hostem CTO Dalibor Frívaldský. Memsource ročně zpracuje 15 TB textových dat.

Seriál: Rozhovory

Přečtěte si všechny díly seriálu Rozhovory nebo sledujte jeho RSS

Zajímá vás toto téma? Chcete se o něm dozvědět víc?

Objednejte si upozornění na nově vydané články do vašeho mailu. Žádný článek vám tak neuteče.

Vstoupit do diskuse (1 názor)

Jan Sedlák

Reportér Lupa.cz a E15. O technologiích píše také do zahraničních médií.

Témata:

Zajímavý článek, už kvůli tomu, že přes 30 let překládám. Strojový překlad je pro nějaké základní texty super, ale když je potřeba přeložit něco složitějšího, tak z toho leze jen změť použitelný - nepoužitelných - nesmyslných nebo vyloženě zavádějících kousků. A to mluvím o úrovni věty. Překladač se trefí za den v průměru tak do správného překladu tak 1 věty, a to ještě u technické dokumentace. Když je to na úrovni většího materiálu, tak je to naprosto nepoužitelné. Spousta programátorů i…

xls

Sdílet

Josef Průša (Průša 3D): Tiskárny od nás odebírá NASA i SpaceX

Ondřej Vlček (Gen/Avast): USA si chválí, že EU vyváží regulaci. Nám může pomoci v novém byznysu

Pavel Vopařil (Bonami): Chceme udělat vítr na trhu online nakupování nábytku

Zajímá vás toto téma? Chcete se o něm dozvědět víc?

Autor článku

Jan Sedlák

Témata:

Komerční sdělení

INTERNET CZ: První certifikovaný registrátor domén .cz podle nových kritérií CZ.NIC

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Vyzkoušeli jsme školu smyku ve FlixBusu. Problémem jsou nepřipoutaní pasažéři

Aby energetická transformace nebyla „teror“. Skupina TEDOM nově nabízí komplexní řešení pro malé a…

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Kdo odpovídá za škodu v důsledku zřícení budovy nebo pádu její části?

Podrobná mapa jižního pólu Měsíce. Brněnská společnost TRL Space bude stát v čele evropské vesmírné…

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

Pokud potřebujete půjčit v korunách, nemusíte kvůli tomu prodávat bitcoiny. Můžete je zastavit

Rozmach létajících taxíků se stále nekoná. Evropským firmám, které je vyvíjejí, totiž postupně…

David Čaněk (Memsource): Dodáváme Uberu, ale s lepším obchodem a marketingem jsme mohli být dvakrát větší

Sdílet

Josef Průša (Průša 3D): Tiskárny od nás odebírá NASA i SpaceX

Ondřej Vlček (Gen/Avast): USA si chválí, že EU vyváží regulaci. Nám může pomoci v novém byznysu

Pavel Vopařil (Bonami): Chceme udělat vítr na trhu online nakupování nábytku

Zajímá vás toto téma? Chcete se o něm dozvědět víc?

Autor článku

Komerční sdělení

Podcast

Mohlo by vás zajímat

Z našich webů

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Vyzkoušeli jsme školu smyku ve FlixBusu. Problémem jsou nepřipoutaní pasažéři

Aby energetická transformace nebyla „teror“. Skupina TEDOM nově nabízí komplexní řešení pro malé a…

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Kdo odpovídá za škodu v důsledku zřícení budovy nebo pádu její části?

Podrobná mapa jižního pólu Měsíce. Brněnská společnost TRL Space bude stát v čele evropské vesmírné…

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

Pokud potřebujete půjčit v korunách, nemusíte kvůli tomu prodávat bitcoiny. Můžete je zastavit

Rozmach létajících taxíků se stále nekoná. Evropským firmám, které je vyvíjejí, totiž postupně…

Dále u nás najdete

Je možné vyhrát nad Temu? Prodejci her se to podařilo

Počet OSVČ je opět rekordní. Nestojí za tím změny u dohod?

Jak českým firmám pomáhá digitální transformace?

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Přílišné uklízení škodí plicím stejně jako cigarety

Vyzkoušeli jsme test, který ukazuje, co jsme zdědili po předcích

USA zastavují dodávky pokročilých AI čipů TSMC do Číny

Chrome OS se zřejmě promění v Android

Bolest prsu nemusí hned značit vážné onemocnění

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

První pacientka podstoupila genovou terapii bránící slepotě

Celý příští týden se můžete nechat anonymně otestovat na HIV

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

SSD už také mají obrovskou kapacitu – až 122 TB

Lékaři zdarma a bez objednání změří kapacitu plic

Lumbální punkce sice vypadá děsivě, ale nebolí

Pokuty za spam zřejmě vzrostou a můžou být likvidační

Oznámení o osvobozených příjmech: shrnutí povinností

World of Warcraft slaví 20 let a stále se hraje