マルチモーダル推論のためのセグメント整合型ポリシー最適化

arXiv cs.AI / 2026/5/5

📰 ニュースModels & Research

共有:

要点

この論文は、大規模言語モデル向けの強化学習がトークン単位または応答全体単位で政策最適化を行うことが多く、その結果としてマルチモーダル推論ではクレジット割り当てや学習安定性が損なわれると指摘しています。
それに対し、Segment-Aligned Policy Optimization（SAPO）を提案し、個々のトークンや全文応答ではなく、筋の通った推論ステップ（セグメント）を単位として政策更新を行う枠組みを示します。
SAPOは、推論を推論セグメント上のステップごとのマルコフ決定過程としてモデル化し、セグメント単位の価値推定、アドバンテージ計算、推論境界に整合する重要度サンプリングを導入します。
実験では、SAPOがトークン単位およびシーケンス単位のポリシー最適化を一貫して上回り、精度の大幅な向上に加えて学習安定性と価値推定の一貫性が改善することが示されています。
著者らは、再現性を担保するためコードとモデルを公開する予定であり、複雑な推論タスクにおける意味的に根ざしたRLの発展につながる重要性を強調しています。

要旨: 大規模言語モデルに対する既存の強化学習アプローチでは、通常、個々のトークン単位、または応答シーケンス全体の粒度で方策最適化を行います。しかし、このような定式化はしばしば、推論プロセスの自然なステップごとの構造と整合せず、その結果、マルチモーダル推論タスクにおいて不適切なクレジット割り当てや不安定な学習が生じます。そこで本研究では、このギャップを埋めるために、Segment-Aligned Policy Optimization（SAPO）と呼ぶ新しい強化学習パラダイムを提案します。SAPOでは、方策更新の基本単位をトークンや全シーケンスではなく、首尾一貫した推論ステップとして扱います。SAPOは、推論セグメント上にステップごとのマルコフ決定過程の抽象化を導入し、さらに、推論の境界に意味論的に整合したセグメント単位の価値推定、アドバンテージ計算、重要度サンプリングの仕組みを伴います。代表的な推論ベンチマークでの実験により、SAPOがトークン単位およびシーケンス単位の方策最適化手法を一貫して上回り、大幅な精度向上を達成しつつ、学習安定性と価値推定の一貫性もより良好であることが示されます。本研究は、強化学習の更新を推論の内在的な構造に整合させることの重要性を強調し、複雑な推論タスクにおける、より効率的で意味論的に裏づけられた方策最適化への道を拓きます。完全な再現性を確保するために、コードとモデルを公開します。