KOMBO:子文字の組み合わせ規則に基づく韓国文字表現
arXiv cs.CL / 2026/4/28
📰 ニュースModels & Research
要点
- この論文では、ハングルの発明原理を文字表現に取り込むことで、韓国語の事前学習言語モデル向けの新しい枠組みKOMBOを提案している。
- 通常のサブワード手法に頼るのではなく、子文字の組み合わせとして文字を表すことで、韓国語に固有の言語構造をより適切に捉えることを目指している。
- 複数のNLPタスクに対する実験の結果、KOMBOは既存の最先端韓国語PLMを上回り、自然言語理解の5つのベンチマークで平均2.11%の向上を示した。
- 大規模な実験により、この手法が韓国語の言語的特徴の理解に適していることが示されており、韓国語PLMにおけるサブ文字ベースの有用性が強調されている。
- KOMBOの実装コードはGitHubで公開されており、再現や追試のために利用できる。


