R2IF:複合報酬によって推論を意思決定(ツール呼び出し)に整合させ、解釈可能なLLM関数呼び出しを実現

arXiv cs.LG / 2026/4/23

📰 ニュースModels & Research

要点

  • この論文では、LLMの内部推論と外部ツール呼び出しの意思決定を整合させることを目的とした、推論を考慮した強化学習フレームワークR2IFを提案します。
  • R2IFは、形式・正しさの制約に加えて、Chain-of-Thought Effectiveness Reward(CER)とSpecification-Modification-Value(SMV)報酬を組み合わせた複合報酬を用います。
  • 手法はGRPOで最適化され、BFCL/ACEBenchで評価され、ツール呼び出し精度と推論の解釈可能性の両方を向上させます。
  • 実験では、基準手法に対して最大34.62%の改善(例:Llama3.2-3BのBFCLで)を示し、平均CoT有効性も正の値(Llama3.2-3Bで0.05)を維持しています。

Abstract

関数呼び出しは、大規模言語モデル(LLM)が外部ツールと連携することを可能にしますが、既存のRLベース手法は、推論プロセスとツール呼び出しの意思決定との間に不整合が生じるという問題があります。我々は、解釈可能な関数呼び出しのための、推論を考慮したRLフレームワークR2IFを提案します。ここでは、フォーマット/正確性制約、Chain-of-Thought Effectiveness Reward(CER)、Specification-Modification-Value(SMV)報酬を統合した複合報酬を採用し、GRPOによって最適化します。BFCL/ACEBenchでの実験では、R2IFがベースラインを最大34.62%上回ります(BFCLにおけるLlama3.2-3B)。また、平均CoT有効性が正であり(Llama3.2-3Bで0.05)、信頼性の高いツール併用LLMの導入に向けて、関数呼び出しの精度と解釈可能性の両方を高めます。