
Zaměření výzkumu
Výzkumná skupina SALT (Speech and Language Technologies) se věnuje základnímu i aplikovanému výzkumu v oblasti řečových a jazykových technologií. Hlavními oblastmi našeho zájmu a zaměření jsou zejména:
- Automatické rozpoznávání řeči (ASR) – zaměřujeme se na systémy převádějící mluvenou řeč na text, které nacházejí uplatnění při přípravě textových dokumentů (např. v diktovacích systémech), při automatickém titulkování živých přenosů nebo při vyhledávání informací v audiovizuálních archivech.
- Automatické zpracování přirozeného jazyka (NLP) - věnujeme se technologiím umožňujícím automaticky zpracovávat textová data - ať už vytvořená přímo v psané podobě nebo vzniklá automatickým přepisem pomocí ASR. Konkrétně se jedná o techniky automatické korekce (doplňování diakritiky a interpunkce), detekce pojmenovaných entit, sémantického vyhledávání a mnohé další.
- Syntéza řeči z textu (text-to-speech, TTS) – vyvíjíme technologie umožňující generovat přirozenou řeč na základě psaného textu, s aplikacemi například v hlasových asistentech, navigačních systémech, zařízeních pro čtení dokumentů, zpráv apod. či v systémech pro klonování hlasu.
- Hlasové dialogové systémy – zabýváme se návrhem inteligentních systémů pro efektivní obousměrnou hlasovou komunikaci mezi člověkem a strojem, využívanou v zákaznických kontaktních centrech, informačních linkách či asistivních technologiích. Tyto systémy kromě modulů pro rozpoznávání a syntézu řeči zahrnují i komponenty pro porozumění řeči a řízení dialogu, které jsou klíčové pro dosažení plynulé a smysluplné interakce.
- Hlasová biometrie – náš výzkum zahrnuje metody identifikace a autentizace osob pomocí jedinečných hlasových charakteristik, využitelné zejména v oblasti bezpečnosti (např. v zabezpečení přístupu k citlivým datům či prostorám) v kontextu ochrany před kriminalitou a terorismem.
- Audiovizuální rozpoznávání a syntéza – zaměřujeme se na zpracování spontánní řeči v kombinaci s vizuálními informacemi, což umožňuje vývoj realistických avatarů schopných přirozené komunikace včetně mimiky a artikulace.
- Automatické zpracování audiovizuálních archivů – vyvíjíme metody automatické indexace a rychlého vyhledávání informací ve velkých videoarchívech, včetně vyhledávání místních názvů, jmen osob a dalších entit bez nutnosti předchozího ručního označování.
- Asistivní technologie – zabýváme se technologiemi podporujícími integraci zdravotně postižených osob, např. klonováním hlasu pro lidi s nebezpečím ztráty hlasu, automatickými čtečkami pro nevidomé, titulkováním řeči a automatickým překladem mezi mluvenou řečí a znakovým jazykem pro neslyšící, což usnadňuje komunikaci a začlenění těchto osob do společnosti a zproduktivnit práci zdravotnického personálu.
Důraz klademe na robustnost a efektivitu systémů schopných spolehlivě fungovat i v náročných jazykových prostředích, zejména v prostředí slovanských jazyků.
Použité technologie
V našem výzkumu využíváme širokou škálu pokročilých metod a technologií, zejména:
- strojové učení a hluboké neuronové sítě pro zpracování a analýzu řeči a jazyka
- umělá inteligence, velké jazykové (LLM) a řečové (SLM) modely
- jazykové a akustické modelování řeči
- pokročilé algoritmy pro zpracování spontánní a multimodální řeči
- biometrické metody pro identifikaci osob na základě hlasu
- multimodální integraci řeči s obrazovými daty pro tvorbu realistických avatarů
- moderní webové a cloudové technologie pro deployment řečových a jazykových systémů