SCRIPT:韓国語事前学習言語モデル向けのサブキャラクタ合成表現注入モジュール

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在サブワード・トークナイゼーションに依存している韓国語事前学習言語モデルに対して、韓国語の文字(ジャモ)の合成(構成)知識を追加するための、モデル非依存型の注入モジュールであるSCRIPTを提案する。
  • SCRIPTは、追加の事前学習やアーキテクチャ変更を必要とせずに、サブワード埋め込みを構造的な粒度で強化するため、既存のPLMに幅広く適用できる。
  • 実験では、複数の韓国語NLUおよびNLGタスクにおいて、さまざまなベースラインと比べて性能が向上すると報告されている。
  • 追加の言語学的分析により、SCRIPTは埋め込み空間を変化させ、文法的な規則性をより適切に反映し、意味的にまとまりのあるバリエーションを生成することが示唆される。
  • 著者らは、連携されたGitHubリポジトリに実装を公開しており、導入と再現性を支援している。