E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning
arXiv cs.AI / 4/13/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 既存のTool-Integrated Reasoning(TIR)向け学習では、Zero-RLの探索効率の低さやモード劣化、SFT-then-RLのデータコスト増と低エントロピー崩壊による能力頭打ちが課題になっている。
- 提案手法E3-TIR(Enhanced Experience Exploitation)は、エージェント学習初期を「Expert Prefixes」「Expert Guided」「Self-Exploration」の3種の経験を動的に統合して“warm-up”する枠組みとして定式化している。
- 専門家のアンカー(anchor)を軸に多様な分岐探索を行い、さらにmix policy optimizationにより共有プレフィックス由来の分布シフトや最適化競合を抑制する。
- 実験ではツール利用タスクにおいて従来手法比で6の性能向上を達成し、必要な合成データは10未満とされている。
- ROI(性能・データコスト・学習効率を統合した指標)でもベースライン比で1.46倍の改善が報告され、コードが公開されている。
Related Articles

Black Hat Asia
AI Business

Apple is building smart glasses without a display to serve as an AI wearable
THE DECODER

Why Fashion Trend Prediction Isn’t Enough Without Generative AI
Dev.to
Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to
Chatbot vs Voicebot: The Real Business Decision Nobody Talks About
Dev.to