E3-TIR:ツール統合型推論のための強化された経験活用

arXiv cs.AI / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 既存のツール統合型推論(TIR)向け学習では、Zero-RLの探索効率の低さやモード劣化、SFT-then-RLのデータコスト増と、低エントロピー崩壊による能力の頭打ちが課題になっている。
  • 提案手法E3-TIR(Enhanced Experience Exploitation)は、エージェント学習初期を「Expert Prefixes」「Expert Guided」「Self-Exploration」の3種類の経験を動的に統合して“warm-up”する枠組みとして定式化している。
  • 専門家のアンカー(anchor)を軸に多様な分岐探索を行い、さらにmix policy optimizationにより、共有プレフィックス由来の分布シフトや最適化競合を抑制する。
  • 実験ではツール利用タスクにおいて、従来手法比で6の性能向上を達成し、必要な合成データは10未満とされている。
  • ROI(性能・データコスト・学習効率を統合した指標)でも、ベースライン比で1.46倍の改善が報告されており、コードが公開されている。