E3-TIR:ツール統合型推論のための強化された経験活用
arXiv cs.AI / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 既存のツール統合型推論(TIR)向け学習では、Zero-RLの探索効率の低さやモード劣化、SFT-then-RLのデータコスト増と、低エントロピー崩壊による能力の頭打ちが課題になっている。
- 提案手法E3-TIR(Enhanced Experience Exploitation)は、エージェント学習初期を「Expert Prefixes」「Expert Guided」「Self-Exploration」の3種類の経験を動的に統合して“warm-up”する枠組みとして定式化している。
- 専門家のアンカー(anchor)を軸に多様な分岐探索を行い、さらにmix policy optimizationにより、共有プレフィックス由来の分布シフトや最適化競合を抑制する。
- 実験ではツール利用タスクにおいて、従来手法比で6の性能向上を達成し、必要な合成データは10未満とされている。
- ROI(性能・データコスト・学習効率を統合した指標)でも、ベースライン比で1.46倍の改善が報告されており、コードが公開されている。




