Informační systém výzkumu,
vývoje a inovací

Rejstřík informací o výsledcích

Jednoduché vyhledávání

Zpět na hledáníStrategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models (2023)výskyt výsledku

Identifikační kód	RIV/00216305:26230/23:PU149715
Název v anglickém jazyce	Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models
Druh	D - Stať ve sborníku
Jazyk	eng - angličtina
Vědní obor	10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Rok uplatnění	2023
Kód důvěrnosti údajů	S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů.
Počet výskytů výsledku	3
Počet tvůrců celkem	5
Počet domácích tvůrců	2
Výčet všech uvedených jednotlivých tvůrců	Santosh Kesiraju (státní příslušnost: IN - Indická republika, domácí tvůrce: A) Marek Sarvaš (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A) Tomáš Pavlíček (státní příslušnost: CZ - Česká republika)
Popis výsledku v anglickém jazyce	This paper presents techniques and findings for improving the performance of low-resource speech to text translation (ST). We conducted experiments on both simulated and reallow resource setups, on language pairs English - Portuguese, and Tamasheq - French respectively. Using the encoder-decoder framework for ST, our results show that a multilingual automatic speech recognition system acts as a good initialization under low-resource scenarios. Furthermore, using the CTC as an additional objective for translation during training and decoding helps to reorder the internal representations and improves the final translation. Through our experiments, we try to identify various factors (initializations, objectives, and hyperparameters) that contribute the most for improvements in lowresource setups. With only 300 hours of pre-training data, our model achieved 7.3 BLEU score on Tamasheq - French data, outperforming prior published works from IWSLT 2022 by 1.6 points.
Klíčová slova oddělená středníkem	speech translation, low-resource, multilingual, speech recognition
Stránka www, na které se nachází výsledek	https://www.isca-speech.org/archive/pdfs/interspeech_2023/kesiraju23_interspeech.pdf
DOI výsledku	10.21437/Interspeech.2023-2506
Odkaz na údaje z výzkumu	-

Údaje o výsledku v závislosti na druhu výsledku

Název sborníku	Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
ISBN	-
ISSN	1990-9772
e-ISSN	-
Počet stran výsledku	5
Strana od-do	2148-2152
Název nakladatele	International Speech Communication Association
Místo vydání	Dublin
Místo konání akce	Dublin
Datum konání akce	20.08.2023
Typ akce podle státní příslušnosti účastníků	WRD - Celosvětová
Kód UT WoS článku podle Web of Science	-
EID výsledku v databázi Scopus	2-s2.0-85171568999

Ostatní informace o výsledku

Předkladatel	Vysoké učení technické v Brně / Fakulta informačních technologií
Dodavatel	MV0 - Ministerstvo vnitra (MV)
Rok sběru	2024
Specifikace	RIV/00216305:26230/23:PU149715!RIV24-MV0-26230___
Datum poslední aktualizace výsledku	26.03.2024
Kontrolní číslo	192496804 ( v1.0 )

Informace o dalších výskytech výsledku dodaného stejným předkladatelem

Dodáno GA ČR v roce 2024	RIV/00216305:26230/23:PU149715 v dodávce dat RIV24-GA0-26230___
Dodáno MŠMT v roce 2024	RIV/00216305:26230/23:PU149715 v dodávce dat RIV24-MSM-26230___

Odkazy na výzkumné aktivity, při jejichž řešení výsledek vznikl

Projekt podporovaný MV v programu VK	VK01020132 - Praktické ověření možnosti integrace umělé inteligence pro příjem tísňových volání pomocí hlasového chatbota, vyvinutého v rámci výzkumného projektu BV č. VI20192022169, s technologií pro příjem tísňové komunikace 112 a 150 v ČR (TCTV 112) (2023 - 2025)

Vyhledávání ...