R2IF:複合報酬によって推論を意思決定(ツール呼び出し)に整合させ、解釈可能なLLM関数呼び出しを実現
arXiv cs.LG / 2026/4/23
📰 ニュースModels & Research
要点
- この論文では、LLMの内部推論と外部ツール呼び出しの意思決定を整合させることを目的とした、推論を考慮した強化学習フレームワークR2IFを提案します。
- R2IFは、形式・正しさの制約に加えて、Chain-of-Thought Effectiveness Reward(CER)とSpecification-Modification-Value(SMV)報酬を組み合わせた複合報酬を用います。
- 手法はGRPOで最適化され、BFCL/ACEBenchで評価され、ツール呼び出し精度と推論の解釈可能性の両方を向上させます。
- 実験では、基準手法に対して最大34.62%の改善(例:Llama3.2-3BのBFCLで)を示し、平均CoT有効性も正の値(Llama3.2-3Bで0.05)を維持しています。




