RSAT：構造化アトリビューションにより小型言語モデルが表推論でより忠実に推論できるようにする

arXiv cs.AI / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、表の質問に対して1〜8B規模の小型言語モデルが、根拠となるセルに基づくセル単位の引用を伴いながら段階的に回答できるようにする学習手法「RSAT」を提案しています。
RSATは2段階で構成され、SFTで検証可能な構造化JSON形式の推論出力を学習させ、続くGRPOで忠実性（NLIベースの評価）に加えて引用の妥当性や簡潔さを最適化します。
Qwen 2.5（1.5B/3B/7B）とLlama 3（1B/3B/8B）の6モデルで実験した結果、RSATはSFT単独に比べ忠実性を3.7倍（0.224→0.826）に引き上げ、引用の妥当性はほぼ完璧（0.992）でした。
研究では、事後的なアトリビューションではうまくいかず（フォーマット成功が13%未満）、証拠に基づく引用・帰属は推論プロセスに組み込む必要があることを示しています。
アブレーションにより、忠実性報酬が不可欠であり、これを取り除くと忠実性が0.97から0.03へ大幅に低下することが分かりました。

Abstract

言語モデルが表の質問に答えるとき、ユーザーはどのセルがどの推論ステップに情報を与えたのかを検証する手段を持っていません。私たちはRSATを提案します。RSATは、小規模言語モデル（SLM、1〜8B）に対して、表のエビデンスに根拠づけられたセル単位の引用を伴う、段階的な推論を生成するよう訓練する手法です。第1フェーズ（SFT）では、検証済みの推論トレースから得られた、構造化されたJSON出力形式を教えます。第2フェーズ（GRPO）では、引用の妥当性および簡潔性（parsimony）と併せて、NLIベースの忠実性（faithfulness）を中心とする複合報酬を最適化します。2系統の6モデル、すなわちQwen 2.5（1.5B/3B/7B）およびLlama 3（1B/3B/8B）において、RSATはSFTのみの場合に比べて忠実性を3.7

\times

改善します（0.224

\rightarrow

0.826）。さらに、引用の妥当性はほぼ完璧（0.992）です。事後的な帰属（post-hoc attribution）は、13%未満のフォーマット成功率に崩れ、帰属は推論に統合されるべきであって、後付けで改修してはならないことを示します。アブレーションの結果、忠実性報酬が不可欠であることが分かりました。これを取り除くと、忠実性は0.97から0.03へ低下します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/4Dailyインサイトを見る →

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

RSAT：構造化アトリビューションにより小型言語モデルが表推論でより忠実に推論できるようにする

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」