Identifikační kód |
RIV/00216305:26230/23:PU149715 |
Název v anglickém jazyce |
Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models |
Druh |
D - Stať ve sborníku |
Jazyk |
eng - angličtina |
Vědní obor |
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8) |
Rok uplatnění |
2023 |
Kód důvěrnosti údajů |
S - Úplné a pravdivé údaje o výsledku nepodléhající ochraně podle zvláštních právních předpisů. |
Počet výskytů výsledku |
3 |
Počet tvůrců celkem |
5 |
Počet domácích tvůrců |
2 |
Výčet všech uvedených jednotlivých tvůrců |
Santosh Kesiraju (státní příslušnost: IN - Indická republika, domácí tvůrce: A) Marek Sarvaš (státní příslušnost: SK - Slovenská republika, domácí tvůrce: A) Tomáš Pavlíček (státní příslušnost: CZ - Česká republika) |
Popis výsledku v anglickém jazyce |
This paper presents techniques and findings for improving the performance of
low-resource speech to text translation (ST). We conducted experiments on both
simulated and reallow resource setups, on language pairs English - Portuguese,
and Tamasheq - French respectively. Using the encoder-decoder framework for ST,
our results show that a multilingual automatic speech recognition system acts as
a good initialization under low-resource scenarios. Furthermore, using the CTC as
an additional objective for translation during training and decoding helps to
reorder the internal representations and improves the final translation. Through
our experiments, we try to identify various factors (initializations, objectives,
and hyperparameters) that contribute the most for improvements in lowresource
setups. With only 300 hours of pre-training data, our model achieved 7.3 BLEU
score on Tamasheq - French data, outperforming prior published works from IWSLT
2022 by 1.6 points. |
Klíčová slova oddělená středníkem |
speech translation, low-resource, multilingual, speech recognition |
Stránka www, na které se nachází výsledek |
https://www.isca-speech.org/archive/pdfs/interspeech_2023/kesiraju23_interspeech.pdf |
DOI výsledku |
10.21437/Interspeech.2023-2506 |
Odkaz na údaje z výzkumu |
- |