Abstract
言語モデルが表の質問に答えるとき、ユーザーはどのセルがどの推論ステップに情報を与えたのかを検証する手段を持っていません。私たちはRSATを提案します。RSATは、小規模言語モデル(SLM、1〜8B)に対して、表のエビデンスに根拠づけられたセル単位の引用を伴う、段階的な推論を生成するよう訓練する手法です。第1フェーズ(SFT)では、検証済みの推論トレースから得られた、構造化されたJSON出力形式を教えます。第2フェーズ(GRPO)では、引用の妥当性および簡潔性(parsimony)と併せて、NLIベースの忠実性(faithfulness)を中心とする複合報酬を最適化します。2系統の6モデル、すなわちQwen 2.5(1.5B/3B/7B)およびLlama 3(1B/3B/8B)において、RSATはSFTのみの場合に比べて忠実性を3.7\times改善します(0.224\rightarrow0.826)。さらに、引用の妥当性はほぼ完璧(0.992)です。事後的な帰属(post-hoc attribution)は、13%未満のフォーマット成功率に崩れ、帰属は推論に統合されるべきであって、後付けで改修してはならないことを示します。アブレーションの結果、忠実性報酬が不可欠であることが分かりました。これを取り除くと、忠実性は0.97から0.03へ低下します。