E3-TIR：ツール統合型推論のための強化された経験活用

arXiv cs.AI / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

既存のツール統合型推論（TIR）向け学習では、Zero-RLの探索効率の低さやモード劣化、SFT-then-RLのデータコスト増と、低エントロピー崩壊による能力の頭打ちが課題になっている。
提案手法E3-TIR（Enhanced Experience Exploitation）は、エージェント学習初期を「Expert Prefixes」「Expert Guided」「Self-Exploration」の3種類の経験を動的に統合して“warm-up”する枠組みとして定式化している。
専門家のアンカー（anchor）を軸に多様な分岐探索を行い、さらにmix policy optimizationにより、共有プレフィックス由来の分布シフトや最適化競合を抑制する。
実験ではツール利用タスクにおいて、従来手法比で6の性能向上を達成し、必要な合成データは10未満とされている。
ROI（性能・データコスト・学習効率を統合した指標）でも、ベースライン比で1.46倍の改善が報告されており、コードが公開されている。