Řečové a jazykové technologie

Zaměření výzkumu

Výzkumná skupina SALT (Speech and Language Technologies) se věnuje základnímu i aplikovanému výzkumu v oblasti řečových a jazykových technologií. Hlavními oblastmi našeho zájmu a zaměření jsou zejména:

  • Automatické rozpoznávání řeči (ASR) – zaměřujeme se na systémy převádějící mluvenou řeč na text, které nacházejí uplatnění při přípravě textových dokumentů (např. v diktovacích systémech), při automatickém titulkování živých přenosů nebo při vyhledávání informací v audiovizuálních archivech.
  • Automatické zpracování přirozeného jazyka (NLP) - věnujeme se technologiím umožňujícím automaticky zpracovávat textová data - ať už vytvořená přímo v psané podobě nebo vzniklá automatickým přepisem pomocí ASR. Konkrétně se jedná o techniky automatické korekce (doplňování diakritiky a interpunkce), detekce pojmenovaných entit, sémantického vyhledávání a mnohé další.
  • Syntéza řeči z textu (text-to-speech, TTS) – vyvíjíme technologie umožňující generovat přirozenou řeč na základě psaného textu, s aplikacemi například v hlasových asistentech, navigačních systémech, zařízeních pro čtení dokumentů, zpráv apod. či v systémech pro klonování hlasu. 
  • Hlasové dialogové systémy – zabýváme se návrhem inteligentních systémů pro efektivní obousměrnou hlasovou komunikaci mezi člověkem a strojem, využívanou v zákaznických kontaktních centrech, informačních linkách či asistivních technologiích. Tyto systémy kromě modulů pro rozpoznávání a syntézu řeči zahrnují i komponenty pro porozumění řeči a řízení dialogu, které jsou klíčové pro dosažení plynulé a smysluplné interakce.
  • Hlasová biometrie – náš výzkum zahrnuje metody identifikace a autentizace osob pomocí jedinečných hlasových charakteristik, využitelné zejména v oblasti bezpečnosti (např. v zabezpečení přístupu k citlivým datům či prostorám) v kontextu ochrany před kriminalitou a terorismem.
  • Audiovizuální rozpoznávání a syntéza – zaměřujeme se na zpracování spontánní řeči v kombinaci s vizuálními informacemi, což umožňuje vývoj realistických avatarů schopných přirozené komunikace včetně mimiky a artikulace.
  • Automatické zpracování audiovizuálních archivů – vyvíjíme metody automatické indexace a rychlého vyhledávání informací ve velkých videoarchívech, včetně vyhledávání místních názvů, jmen osob a dalších entit bez nutnosti předchozího ručního označování.
  • Asistivní technologie – zabýváme se technologiemi podporujícími integraci zdravotně postižených osob, např. klonováním hlasu pro lidi s nebezpečím ztráty hlasu, automatickými čtečkami pro nevidomé, titulkováním řeči a automatickým překladem mezi mluvenou řečí a znakovým jazykem pro neslyšící, což usnadňuje komunikaci a začlenění těchto osob do společnosti a zproduktivnit práci zdravotnického personálu.

Důraz klademe na robustnost a efektivitu systémů schopných spolehlivě fungovat i v náročných jazykových prostředích, zejména v prostředí slovanských jazyků.

Použité technologie

V našem výzkumu využíváme širokou škálu pokročilých metod a technologií, zejména:

  • strojové učení a hluboké neuronové sítě pro zpracování a analýzu řeči a jazyka
  • umělá inteligence, velké jazykové (LLM) a řečové (SLM) modely
  • jazykové a akustické modelování řeči
  • pokročilé algoritmy pro zpracování spontánní a multimodální řeči
  • biometrické metody pro identifikaci osob na základě hlasu
  • multimodální integraci řeči s obrazovými daty pro tvorbu realistických avatarů
  • moderní webové a cloudové technologie pro deployment řečových a jazykových systémů