Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Evaluating automatic sentence alignment approaches on English-Slovak sentences
Autoři: Forgac Frantisek | Munkova Dasa | Munk Michal | Kelebercova Livia
Rok: 2023
Druh publikace: článek v odborném periodiku
Název zdroje: Scientific Reports
Strana od-do: 20123
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Vyhodnocování přístupů automatického zarovnání vět na anglicko-slovenských větách Paralelní texty představují velmi cenný zdroj v mnoha aplikacích zpracování přirozeného jazyka. Základním krokem při vytváření paralelního korpusu je zarovnání. Zarovnání vět je problém nalezení korespondence mezi zdrojovými větami a jejich ekvivalentními překlady v cílovém textu. Byla navržena řada přístupů k automatickému zarovnání vět, včetně neuronových sítí, které lze rozdělit na založené na délce, na lexikonu a na překladu. V naší studii jsme použili pět různých zarovnávačů, jmenovitě zarovnávač dvojjazyčných vět (BSA), Hunalign, Bleualign, Vecalign a Bertalign. Hodnotili jsme oba, výkon Bertalignu z hlediska přesnosti vůči dosud používaným zarovnávačům i mezi sebou navzájem v jazykovém páru angličtina-Sovak. Vytvořili jsme náš vlastní korpus složený z textů sesbíraných v letech 2021 a 2022. Statisticky významně nejlépe si vedly Vecalign a Bertalign a nejhůře BSA. Hunalign a Bleualign dosáhli stejného výkonu, pokud jde o skóre F1. Bleualign však dosáhl nejrozmanitějších výsledků z hlediska výkonu. Jazyk; Zpracování přirozeného jazyka; Neuronové sítě, počítače; Slovensko
eng Evaluating automatic sentence alignment approaches on English-Slovak sentences Parallel texts represent a very valuable resource in many applications of natural language processing. The fundamental step in creating parallel corpus is the alignment. Sentence alignment is the issue of finding correspondence between source sentences and their equivalent translations in the target text. A number of automatic sentence alignment approaches were proposed including neural networks, which can be divided into length-based, lexicon-based, and translation-based. In our study, we used five different aligners, namely Bilingual sentence aligner (BSA), Hunalign, Bleualign, Vecalign, and Bertalign. We evaluated both, the performance of the Bertalign in terms of accuracy against the up to now employed aligners as well as among each other in the language pair English-Sovak. We created our custom corpus consisting of texts collected in 2021 and 2022. Vecalign and Bertalign performed statistically significantly best and BSA the worst. Hunalign and Bleualign achieved the same performance in terms of F1 score. However, Bleualign achieved the most diverse results in terms of performance. Language; Natural Language Processing; Neural Networks, Computer; Slovakia