Simulovat, jak lidský mozek rozeznává řeč, je nekonečně složitá úloha

9. 7. 2012

Doba čtení: 5 minut

Doba, kdy budou počítače či mobilní telefony plně rozumět přirozené lidské řeči, ještě zdaleka nepřišla. A vyřešit tuto otázku pro češtinu bude o hodně složitější než v případě jazyka anglického, shodují se vývojáři z Newton Technologies a liberecké technické univerzity. Vrcholem jejich snah je software Newton Dictate.

Až 98% úspěšnost při převádění mluvené řeči na text slibuje třetí verze softwaru Newton Dictate, který koncem června uvedla společnost Newton Technologies. „Zkušený uživatel“ přitom prý může dosáhnout i úspěšnosti 99 %. To pořád znamená jedno slovo ze sta špatně.

Ukázky, které firma předvedla na tiskové konferenci, této úrovni odpovídaly. Školení lidé mluvili do diktovacího mikrofonu Philips, a výsledkem bylo přibližně jedno chybné slovo na odstavec:

V obecném projevu naskočilo namísto „kvůli“ „figuru“ – zmate to, ale nic více. V ukázce hlášení o dopravní nehodě naskočilo jednou „vous“ na místo „vůz“ – pobaví to, ale z kontextu pochopíte. Při ukázce justičního diktování žel naskočilo za dlužnou částkou namísto diktovaného „ká čé“ „× 3“, a to zamrzí. Přepis prostě je nutné ohlídat a opravit. Ve vyšších verzích programu lze opravu přepisu podle záznamu předat někomu jinému, do zvláštního editoru. Lze v nich také zpracovat záznam natočený zvlášť, mimo program.

Na vysokou úspěšnost začátečník jen tak nedosáhne. Newton Dictate 3 jsem nainstaloval na notebook se 4 GB RAM, s procesorem Intel i5 M520 na 2,4 GHz. Užil jsem dodaných USB sluchátek Logitech se směrovým mikrofonem. Ukázku mého diktování vidíte na obrázku níže. Notebook (ač napájen ze sítě a nastaven na vysoký výkon) se přitom rozpoznáváním opožďoval za tempem, kterým jsem přirozeně diktoval, aniž jsem spěchal.

Ukázka neškoleného užití Newton Dictate 3

Diktujícího zdržuje i potřeba odříkávat interpunkci a další povely jako „čárka“, „tečka“, „závorka“ nebo „nový odstavec“. Ve školeném projevu systém dovede sám doplňovat některé čárky. Doplní i tečku, klesnete-li dostatečně hlasem. Opravdu záleží na tom, zda se naučíte vhodně frázovat.

Na několik otázek mi odpověděl Petr Pazour, který v Newton Technologies vede vývoj; za Laboratoř počítačového zpracování řeči Technické univerzity v Liberci pak odpovídal Jindřich Žďánský:

Po jaké době se nyní uvádí třetí verze Newton Dictate?

PP: V roce 2005 jsme měli první testovací verzi, a od roku 2009 se používala verze 2. Ta vydržela několik releasů. Verzi tři jsme vyvíjeli poslední rok a půl.

Ta první nebyla moc k užitku?

PP: To ani ne, ale spíš jsme se na ní učili, jak rozpoznávání řeči vlastně funguje.

Nasadili jste už program v reálném provozu?

PP: Ano, už s první verzí jsme působili v justici a někteří soudci s ní každodenně diktovali rozsudky. Byl to jakoby pilotní projekt, zaměřený speciálně na slovníky oborové, protože na obecnou češtinu to tenkrát ještě nestačilo – jednak z hlediska síly počítačů, jednak z hlediska technologie jako takové.

Jak velkým vývojovým skokem kupředu je nyní třetí verze?

PP: Zcela zásadním, nezůstal kámen na kameni. Celé jádro, které vyvíjeli kolegové z Liberce, je kompletně nově přepsáno, a od základu jsme předělali i celý program. Z hlediska rozpoznávání je to opravdu zásadní krok. Rozdíl mezi tím, co uměla přepisovat verze 2, a co dnes umí verze 3 – hlavně v oblasti obecnějších slovníků – je neporovnatelný.

Ke zlepšení došlo hlavně díky rozšířeným slovníkům?

JŽ: To také, ale podstatou je to, že jsme si díky tomu, že se zrychlují počítače, mohli dovolit použít nejnovější technologie. Rozpoznává se tak s daleko větší úspěšností.

Můžete ty technologie pojmenovat?

JŽ: V principu se algoritmicky už přibližně dvacet let nic moc nemění. Zlepšují se různé implementace a vylepšují se hlavně modely: akustika a slovníky. K tomu je potřeba sesbírat data, umět s nimi pracovat, umět je zpracovat. Ale v podstatě pořád, i teď, nás brzdí dostupný výkon. Mohlo by to fungovat daleko lépe. Počítače pořád nejsou dostatečně výkonné – myslím desktopy, ne servery.

Kolikanásobně výkonnější byste potřebovali?

JŽ: Jakkoli výkonnější (smích). I když budou tisíckrát výkonnější, spolehlivě jejich výkon spotřebujeme. Nasimulovat, jak funguje lidský mozek, který umí rozpoznávat řeč, to je vlastně nekonečně složitá úloha. Aproximujeme různými statistickými modely a děláme, co můžeme.

Pod pojmem modely si můžu představit buď konkrétní vzorky toho, jak lidé mluví a jak zní jejich hlas, anebo i modely kontextu.

JŽ: Pracujeme s obojím. Funguje to tak, že si uděláme modely hlásek, jak je lidi vyslovují, aby program rozpoznával každého; hlásky se jakoby zprůměrují: průměrné /a/ Čecha, průměrné /b/ a tak. Na základě toho se staví slovník; v něm zase textový tvar neodpovídá tomu, jak se vyslovuje. A tak program přepíše, jak by se asi vyslovovalo, a dá se to upravit – a z toho se pak složí jednotka slovo: propojí se vytvořené modely hlásek. Nad tím funguje to, co jste říkal – jazykový model, tady zjednodušeně ‚slovník‘. Ale vlastně to není jenom seznam slov, musí se v něm popisovat i vazby mezi slovy, a to je prokletí češtiny, která nemá pevnou skladbu jazyka. A hlavně je jazykem ohebným.

Porovnám to s angličtinou: když chceme pokrýt třeba obecnou angličtinu tak, aby chybovost byla jedno slovo ze sta, stačí k tomu slovník s padesáti tisíci slov. Ale pro češtinu potřebujeme na totéž přes milión slovních tvarů; a kdybyste jen chtěl popsat pravděpodobnost, že jedno slovo následuje druhé, už je to na druhou. Padesát tisíc na druhou je málo, zatímco milion na druhou… Takže potom řešíme i otázky, jak to vlastně dostat do paměti. Proto rozpoznávání angličtiny bylo už dávno, ale pro češtinu se vyvíjelo déle.

Jak funguje spolupráce mezi Newtonem a univerzitou? Ve škole zkoumáte řeč, sestavujete modely… V jakém stavu výsledky přebírá Newton a dělá z nich komerční produkt?

PP: Univerzita v Liberci se pro nás stará o základní rozpoznávací jádro; přitom může využít vědecké poznatky, které získává ze světa. My potom to jádro vezmeme a postupně ho obalujeme a zabalujeme do nějakého programu. Je z toho pak taková stavebnice – my jsme nad jádrem schopni stavět další úlohy. Jednou z nich je například Newton Dictate, ale úplně stejným způsobem umíme rozpoznávat řeč v mobilních telefonech (díky odesílání dat na server) a stejná technologie už umí dnes řídit třeba komerční linky ve fabrikách. Jsme schopni stavět koncové aplikace, které se mohou uplatnit v komerčním procesu, a to pro češtinu, slovenštinu nebo polštinu, které máme v tuhle chvíli funkční.

Je tato spolupráce finančně přínosná i pro univerzitu?

JŽ: Určitě. Je to finanční přínos, ale hlavně je to také motivace. Je lepší vyvíjet něco, co se dostane na trh a někde to je vidět, než o tom jen psát články.

Vstoupit do diskuse (9 názorů)

Marek Janouš

Volný autor

Témata:

Ke své práci používám Dragon Dictate for Mac pro přepis mluvené angličtiny do anglického textu. Se svojí angličtinou dosahuju tak cca 80 % úspěšnosti, funguje to nejlépe u dlouhých slov. Verze, kterou používám, může vepsat nadiktovaný text do jakéhokoliv textového pole v jakémkoliv programu (Word, TextEdit, Wordfast a dokonce i do textového editoru běžícího ve virtualizovaných Windows). Slovník má 151 000 výrazů. Nevýhodou takového softu je to, že musíte být v místnosti s téměř absolutním…

bez přezdívky

Sdílet

Autor článku

Marek Janouš

Témata:

Komerční sdělení

INTERNET CZ: První certifikovaný registrátor domén .cz podle nových kritérií CZ.NIC

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Když malý usnul, otevírala notebook. Nyní má úspěšný byznys pro nejmenší

Odvody OSVČ v roce 2025: Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

Čokoláda za 70 korun? Zdražování oblíbené pochoutky by mohlo nahrát rozšíření produkce kakaa v Indii

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Vyzkoušeli jsme školu smyku ve FlixBusu. Problémem jsou nepřipoutaní pasažéři

Placení kartou preferují tři čtvrtiny Čechů, hotovost ale i přesto obvykle nosí většina z nás,…

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Kdo odpovídá za škodu v důsledku zřícení budovy nebo pádu její části?

Cirkulární ekonomika v praxi. V Bruselu dokázali při přestavbě budovy zrecyklovat 89 procent…

Simulovat, jak lidský mozek rozeznává řeč, je nekonečně složitá úloha

Sdílet

Autor článku

Komerční sdělení

Podcast

Mohlo by vás zajímat

Z našich webů

Když malý usnul, otevírala notebook. Nyní má úspěšný byznys pro nejmenší

Odvody OSVČ v roce 2025: Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

Čokoláda za 70 korun? Zdražování oblíbené pochoutky by mohlo nahrát rozšíření produkce kakaa v Indii

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Vyzkoušeli jsme školu smyku ve FlixBusu. Problémem jsou nepřipoutaní pasažéři

Placení kartou preferují tři čtvrtiny Čechů, hotovost ale i přesto obvykle nosí většina z nás,…

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Kdo odpovídá za škodu v důsledku zřícení budovy nebo pádu její části?

Cirkulární ekonomika v praxi. V Bruselu dokázali při přestavbě budovy zrecyklovat 89 procent…

Dále u nás najdete

World of Warcraft slaví 20 let a stále se hraje

Vyznejte se v kuřatech. Takhle se liší selské od venkovského

Správná péče o bércové vředy může zabránit zanícení

Lékárníci v karavanu anonymně změří cholesterol i cukr v krvi

Když malý usnul, otevírala notebook. Nyní má úspěšný byznys

Celý příští týden se můžete nechat anonymně otestovat na HIV

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

První pacientka podstoupila genovou terapii bránící slepotě

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Cukroví bez tuku je stejně chutné, jako jeho kaloričtější alternativy

Deepl nově umí překládat v reálném čase řeč

Svařák bez alkoholu je skvělá varianta pro těhotné či abstinenty

Chrome OS se zřejmě promění v Android

Souvisí zákaz Huawei i s nákupem stíhaček F-35?

Vyhněte se chybám a prodlužte životnost USB flash disku

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Ať Google prodá prohlížeč Chrome, navrhuje ministerstvo

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Počet OSVČ je opět rekordní. Nestojí za tím změny u dohod?