ポーランド語理解の長文コンテキスト対応エンコーダーモデル
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、8192トークンまでの系列を処理できるポーランド語専用エンコーダを導入し、従来のBERT様エンコーダの短い文脈窓の制約に対処します。
- positional embedding adaptationと全パラメータ継続的事前学習を含む2段階の学習手法を採用し、知識蒸留による圧縮バリアントも提案して、性能と効率のバランスを取ります。
- KLEJやFinBenchを含む25タスクで評価し、長文コンテキストタスクにおいてポーランド語および多言語モデルの中で最良の平均性能を達成し、短文の品質も維持します。
- 'new' アナウンスタイプとして arXiv:2603.12191v1 の形で公開された本研究は、ポーランド語および多言語NLPにおける長文文書理解の有意な進展を強調します。
要旨: デコーダーのみの大規模言語モデル(LLMs)は近年NLPの景観を支配している一方で、エンコーダーのみのアーキテクチャは識別タスクにおけるコスト効率とパラメータ効率の標準として依然として重要です。しかし、BERT のような従来のエンコーダは短いコンテキストウィンドウにより制限され、長文の処理には不十分です。本論文では、8192トークンまでの系列を処理可能な高品質なポーランド語モデルを導入することで、この制限に対処します。モデルは、位置埋め込み適応と全パラメータの継続的事前学習を含む2段階のトレーニング手順を用いて開発されました。さらに、知識蒸留を用いて訓練された圧縮モデルのバリアントを提案します。これらのモデルは、KLEJベンチマーク、最近導入された金融タスク群FinBench、長文文書理解を要する他の分類・回帰タスクを含む25タスクで評価されました。その結果、我々のモデルは、ポーランド語および多言語モデルの中で最も平均的な性能を達成し、長文文書理解タスクでは競合解を大きく上回りつつ、短文の品質を維持しています。