RSAT:構造化アトリビューションにより小型言語モデルが表推論でより忠実に推論できるようにする

arXiv cs.AI / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、表の質問に対して1〜8B規模の小型言語モデルが、根拠となるセルに基づくセル単位の引用を伴いながら段階的に回答できるようにする学習手法「RSAT」を提案しています。
  • RSATは2段階で構成され、SFTで検証可能な構造化JSON形式の推論出力を学習させ、続くGRPOで忠実性(NLIベースの評価)に加えて引用の妥当性や簡潔さを最適化します。
  • Qwen 2.5(1.5B/3B/7B)とLlama 3(1B/3B/8B)の6モデルで実験した結果、RSATはSFT単独に比べ忠実性を3.7倍(0.224→0.826)に引き上げ、引用の妥当性はほぼ完璧(0.992)でした。
  • 研究では、事後的なアトリビューションではうまくいかず(フォーマット成功が13%未満)、証拠に基づく引用・帰属は推論プロセスに組み込む必要があることを示しています。
  • アブレーションにより、忠実性報酬が不可欠であり、これを取り除くと忠実性が0.97から0.03へ大幅に低下することが分かりました。

Abstract

言語モデルが表の質問に答えるとき、ユーザーはどのセルがどの推論ステップに情報を与えたのかを検証する手段を持っていません。私たちはRSATを提案します。RSATは、小規模言語モデル(SLM、1〜8B)に対して、表のエビデンスに根拠づけられたセル単位の引用を伴う、段階的な推論を生成するよう訓練する手法です。第1フェーズ(SFT)では、検証済みの推論トレースから得られた、構造化されたJSON出力形式を教えます。第2フェーズ(GRPO)では、引用の妥当性および簡潔性(parsimony)と併せて、NLIベースの忠実性(faithfulness)を中心とする複合報酬を最適化します。2系統の6モデル、すなわちQwen 2.5(1.5B/3B/7B)およびLlama 3(1B/3B/8B)において、RSATはSFTのみの場合に比べて忠実性を3.7\times改善します(0.224\rightarrow0.826)。さらに、引用の妥当性はほぼ完璧(0.992)です。事後的な帰属(post-hoc attribution)は、13%未満のフォーマット成功率に崩れ、帰属は推論に統合されるべきであって、後付けで改修してはならないことを示します。アブレーションの結果、忠実性報酬が不可欠であることが分かりました。これを取り除くと、忠実性は0.97から0.03へ低下します。

RSAT:構造化アトリビューションにより小型言語モデルが表推論でより忠実に推論できるようにする | AI Navigate