Abstract
本論文は、低リソース言語におけるキーワード駆動型テキスト生成のために設計された、2.6百万件規模のバングラ語キーワード—テキスト対からなる大規模データセット、\textit{Bangla Key2Text}を紹介する。このデータセットは、何百万本ものバングラ語ニュース文書に対してBERTベースのキーワード抽出パイプラインを適用し、元の生記事を教師あり学習に適した構造化されたキーワード—テキスト対へと変換することで構築される。新しいベンチマークにおけるベースライン性能を確立するために、2つのシーケンス・ツー・シーケンスモデル、\texttt{mT5}および\texttt{BanglaT5}を微調整し、複数の自動評価指標と人手による判断を用いて評価する。実験結果は、ゼロショットの大規模言語モデルと比べて、タスク固有の微調整がバングラ語におけるキーワード条件付きテキスト生成を大幅に改善することを示している。データセット、学習済みモデル、およびコードは、バングラ語の自然言語生成とキーワードからテキストへの生成タスクに関する今後の研究を支援するために公開される。



