LARFT: 大規模言語モデルにおける長さ指示遵守の認知-行動ギャップを埋める

arXiv cs.AI / 2026/3/23

💬 オピニオンModels & Research

要点

  • LARFTは、長さ志向の強化学習と後知恵を活用した長さ認識を統合し、モデルの長さ認識と生成行動を整合させます。
  • オンポリシーのデータを後知恵を活用した自己認識タスクに変換し、モデルが自分の生成テキストの実際の長さを特定できるようにします。
  • 4つのベースモデル全体で、LARFTはベースラインを上回り、長さ指示遵守の3つのベンチマークで平均+20.92ポイント、4つの一般能力ベンチマークではわずか-1.45ポイントの低下にとどまりました。
  • 結果は、一般的な能力を大きく犠牲にすることなく、長さ制約を満たす際の精度と信頼性の向上を示しています。

要旨:
大規模言語モデル(LLMs)は複雑な指示追従タスクにおいて高い性能を示していますが、出力の長さを正確に制御することは依然として継続的な課題です。既存の手法は主に、外部から長さ信号や最適化目的を課すことで長さ制約を強制しようとしますが、根本的な制約、すなわちモデルの長さ認識の内在的欠如をほとんど見落としています。これに対処するため、長さ認識を行動と整合させる訓練フレームワークである LARFT(Length-Aware Reinforcement Fine-Tuning)を提案します。具体的には、LARFT は長さ志向の強化学習を過去情報を活用した長さ認識と統合します。オンポリシー(on-policy)データを、モデルが自ら生成した実際の長さを識別する自己認識タスクへと変換することにより、LARFT は長さ情報の内部表現を共同で最適化し、長さ制約を満たすように方針を洗練させ、正確で信頼性のある長さ指示の追従を実現します。4つの基本モデルを対象とした広範な実験により、LARFT が既存のベースラインを上回り、長さ指示追従の3つのベンチマークで平均+20.92ポイントの改善を達成した一方、4つの一般能力ベンチマークではわずかに-1.45ポイント低下したことを示しています。