Řečové a jazykové technologie

Zaměření výzkumu

Výzkumná skupina SALT (Speech and Language Technologies) se věnuje základnímu i aplikovanému výzkumu v oblasti řečových a jazykových technologií. Hlavními oblastmi našeho zájmu a zaměření jsou zejména:

Automatické rozpoznávání řeči (ASR) – zaměřujeme se na systémy převádějící mluvenou řeč na text, které nacházejí uplatnění při přípravě textových dokumentů (např. v diktovacích systémech), při automatickém titulkování živých přenosů nebo při vyhledávání informací v audiovizuálních archivech.
Automatické zpracování přirozeného jazyka (NLP) - věnujeme se technologiím umožňujícím automaticky zpracovávat textová data - ať už vytvořená přímo v psané podobě nebo vzniklá automatickým přepisem pomocí ASR. Konkrétně se jedná o techniky automatické korekce (doplňování diakritiky a interpunkce), detekce pojmenovaných entit, sémantického vyhledávání a mnohé další.
Syntéza řeči z textu (text-to-speech, TTS) – vyvíjíme technologie umožňující generovat přirozenou řeč na základě psaného textu, s aplikacemi například v hlasových asistentech, navigačních systémech, zařízeních pro čtení dokumentů, zpráv apod. či v systémech pro klonování hlasu.
Hlasové dialogové systémy – zabýváme se návrhem inteligentních systémů pro efektivní obousměrnou hlasovou komunikaci mezi člověkem a strojem, využívanou v zákaznických kontaktních centrech, informačních linkách či asistivních technologiích. Tyto systémy kromě modulů pro rozpoznávání a syntézu řeči zahrnují i komponenty pro porozumění řeči a řízení dialogu, které jsou klíčové pro dosažení plynulé a smysluplné interakce.
Hlasová biometrie – náš výzkum zahrnuje metody identifikace a autentizace osob pomocí jedinečných hlasových charakteristik, využitelné zejména v oblasti bezpečnosti (např. v zabezpečení přístupu k citlivým datům či prostorám) v kontextu ochrany před kriminalitou a terorismem.
Audiovizuální rozpoznávání a syntéza – zaměřujeme se na zpracování spontánní řeči v kombinaci s vizuálními informacemi, což umožňuje vývoj realistických avatarů schopných přirozené komunikace včetně mimiky a artikulace.
Automatické zpracování audiovizuálních archivů – vyvíjíme metody automatické indexace a rychlého vyhledávání informací ve velkých videoarchívech, včetně vyhledávání místních názvů, jmen osob a dalších entit bez nutnosti předchozího ručního označování.
Asistivní technologie – zabýváme se technologiemi podporujícími integraci zdravotně postižených osob, např. klonováním hlasu pro lidi s nebezpečím ztráty hlasu, automatickými čtečkami pro nevidomé, titulkováním řeči a automatickým překladem mezi mluvenou řečí a znakovým jazykem pro neslyšící, což usnadňuje komunikaci a začlenění těchto osob do společnosti a zproduktivnit práci zdravotnického personálu.

Důraz klademe na robustnost a efektivitu systémů schopných spolehlivě fungovat i v náročných jazykových prostředích, zejména v prostředí slovanských jazyků.

Použité technologie

V našem výzkumu využíváme širokou škálu pokročilých metod a technologií, zejména:

strojové učení a hluboké neuronové sítě pro zpracování a analýzu řeči a jazyka
umělá inteligence, velké jazykové (LLM) a řečové (SLM) modely
jazykové a akustické modelování řeči
pokročilé algoritmy pro zpracování spontánní a multimodální řeči
biometrické metody pro identifikaci osob na základě hlasu
multimodální integraci řeči s obrazovými daty pro tvorbu realistických avatarů
moderní webové a cloudové technologie pro deployment řečových a jazykových systémů