Informační systém výzkumu,
vývoje a inovací

Rejstřík informací o výsledcích

Jednoduché vyhledávání

Zpět na hledáníStrategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models (2023)výskyt výsledku

Identifikační kód RIV/00216305:26230/23:PU149715
Název v anglickém jazyce Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models
Druh D - Stať ve sborníku
Jazyk eng - angličtina
Vědní obor 10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Rok uplatnění 2023
Kód důvěrnosti údajů S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku 3
Počet tvůrců celkem 5
Počet domácích tvůrců 2
Výčet všech uvedených jednotlivých tvůrců Santosh Kesiraju (státní příslušnost: IN - Indická republika, domácí tvůrce: A)
Marek Sarvaš (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A)
Tomáš Pavlíček (státní příslušnost: CZ - Česká republika)
Popis výsledku v anglickém jazyce This paper presents techniques and findings for improving the performance of low-resource speech to text translation (ST). We conducted experiments on both simulated and reallow resource setups, on language pairs English - Portuguese, and Tamasheq - French respectively. Using the encoder-decoder framework for ST, our results show that a multilingual automatic speech recognition system acts as a good initialization under low-resource scenarios. Furthermore, using the CTC as an additional objective for translation during training and decoding helps to reorder the internal representations and improves the final translation. Through our experiments, we try to identify various factors (initializations, objectives, and hyperparameters) that contribute the most for improvements in lowresource setups. With only 300 hours of pre-training data, our model achieved 7.3 BLEU score on Tamasheq - French data, outperforming prior published works from IWSLT 2022 by 1.6 points.
Klíčová slova oddělená středníkem speech translation, low-resource, multilingual, speech recognition
Stránka www, na které se nachází výsledek https://www.isca-speech.org/archive/pdfs/interspeech_2023/kesiraju23_interspeech.pdf
DOI výsledku 10.21437/Interspeech.2023-2506
Odkaz na údaje z výzkumu -

Údaje o výsledku v závislosti na druhu výsledku

Název sborníku Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
ISBN -
ISSN 1990-9772
e-ISSN -
Počet stran výsledku 5
Strana od-do 2148-2152
Název nakladatele International Speech Communication Association
Místo vydání Dublin
Místo konání akce Dublin
Datum konání akce 20.08.2023
Typ akce podle státní příslušnosti účastníků WRD - Celosvětová
Kód UT WoS článku podle Web of Science -
EID výsledku v databázi Scopus 2-s2.0-85171568999

Ostatní informace o výsledku

Předkladatel Vysoké učení technické v Brně / Fakulta informačních technologií
Dodavatel MV0 - Ministerstvo vnitra (MV)
Rok sběru 2024
Specifikace RIV/00216305:26230/23:PU149715!RIV24-MV0-26230___
Datum poslední aktualizace výsledku 26.03.2024
Kontrolní číslo 192496804 ( v1.0 )

Informace o dalších výskytech výsledku dodaného stejným předkladatelem

Dodáno GA ČR v roce 2024 RIV/00216305:26230/23:PU149715 v dodávce dat RIV24-GA0-26230___
Dodáno MŠMT v roce 2024 RIV/00216305:26230/23:PU149715 v dodávce dat RIV24-MSM-26230___

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný MV v programu VK VK01020132 - Praktické ověření možnosti integrace umělé inteligence pro příjem tísňových volání pomocí hlasového chatbota, vyvinutého v rámci výzkumného projektu BV č. VI20192022169, s technologií pro příjem tísňové komunikace 112 a 150 v ČR (TCTV 112) (2023 - 2025)
Vyhledávání ...