バングラ・Key2Text:低リソース言語におけるキーワードからのテキスト生成

arXiv cs.CL / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、低リソース環境でのキーワード主導テキスト生成を目的とした、バングラ語のキーワード—テキスト対を含む大規模データセット「Bangla Key2Text」(260万件)を提案する。
  • データセットは、数百万件のバングラ語ニュース記事にBERTベースのキーワード抽出パイプラインを適用し、教師あり学習用のキーワード—テキスト対へ変換することで構築される。
  • 新しいベンチマークに対するベースラインとして、シーケンス・ツー・シーケンスモデルのmT5とBanglaT5をファインチューニングし評価する。
  • 実験結果では、タスク特化のファインチューニングにより、ゼロショットの大規模言語モデルよりもバングラ語のキーワード条件付き生成が大幅に改善することが示される。
  • データセット、学習済みモデル、コードは公開されており、バングラ語NLGやキーワードからのテキスト生成に関する今後の研究を支える。

Abstract

本論文は、低リソース言語におけるキーワード駆動型テキスト生成のために設計された、2.6百万件規模のバングラ語キーワード—テキスト対からなる大規模データセット、\textit{Bangla Key2Text}を紹介する。このデータセットは、何百万本ものバングラ語ニュース文書に対してBERTベースのキーワード抽出パイプラインを適用し、元の生記事を教師あり学習に適した構造化されたキーワード—テキスト対へと変換することで構築される。新しいベンチマークにおけるベースライン性能を確立するために、2つのシーケンス・ツー・シーケンスモデル、\texttt{mT5}および\texttt{BanglaT5}を微調整し、複数の自動評価指標と人手による判断を用いて評価する。実験結果は、ゼロショットの大規模言語モデルと比べて、タスク固有の微調整がバングラ語におけるキーワード条件付きテキスト生成を大幅に改善することを示している。データセット、学習済みモデル、およびコードは、バングラ語の自然言語生成とキーワードからテキストへの生成タスクに関する今後の研究を支援するために公開される。