Scienceworld | Technologie rozpoznávání řeči postupně dospívá

Vývojové centrum společnosti IBM pro rozpoznávání hlasu a související technologie sídlí v Praze již asi 10 let. Výzkum poměrně nenápadně dospěl do fáze praktického nasazení těchto systémů.

V rámci akce IBM Innovation Tour, která na konci minulého týdne zavítala do Prahy, popsal současnou úroveň aplikací pro rozpoznávání řeči Jan Šedivý, manažer divize Voice Technology and Systems v IBM ČR.
(starší rozhovor s J. Šedivým: http://www.scienceworld.cz/sw.nsf/ID/A3B4004F5E62C6E2C1256E970048FDF9)
Současná spolehlivost rozpoznávání řeči již umožňuje například realizaci inteligentních telefonních ústředen. Zaměstnanci v rámci určitého podniku například přecházejí mezi kancelářemi a na místě, kam právě dorazí, se pouze ústně identifikují. Systém on-line zařídí přesměrování linky – údajně s dostatečnou spolehlivostí. Podobně funkční jsou již i technologie umožňující hlasovou komunikaci se systémy v osobních automobilech (IBM spolupracuje zejména s GM a Hondou) či s mobilních telefonech.
Perličkou je pak systém automatické trouby, která reaguje na hlasem zadávané pokyny kuchaře/řky. Trouba je navíc vybavena kamerou a systémem pro rozpoznávání tváře. Následně komunikuje pouze s tím, kdo jí zrovna používá (tj. třeba ho informuje, když dotyčný/dotyčná jde kolem), ostatní kolemjdoucí ignoruje.
Obecně je však v tuto chvíli vyvinout složitější systém pro hlasovou komunikaci ještě poměrně náročné – návrh aplikace totiž vyžaduje vést člověka k předvídatelným odpovědím, které aplikace dokáže analyzovat s požadovanou spolehlivostí (tzv. systém pro řízení dialogu).
Lahůdkou v rámci tiskové konference společnosti IBM pak byl výstup z STM mikroskopu realizovaný přes internet a dokonce manipulace s částicemi prostřednictvím webového prohlížeče.
(Vznik a princip skenovacích tunelových mikroskopů viz http://www.scienceworld.cz/sw.nsf/ID/B51AB8E153B44E00C1256E970048FBB5)

autor Pavel Houser