ETR: Entropy Trend Reward for Efficient Chain-of-Thought Reasoning
arXiv cs.AI / 4/8/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 連鎖的思考(CoT)は高精度化に有効だが、推論が長く非効率になりやすく、既存手法は「不確実性が低いほど良い」という前提で長さを抑えることが多いと指摘しています。
- この論文では、推論の効率は「不確実性(エントロピー)の軌跡」次第であり、エントロピーが優勢に下向きに推移するCoTほど大幅に短くなることを示します。
- その洞察に基づき、Trajectory-awareな目的関数「Entropy Trend Reward(ETR)」を提案し、不確実性の漸進的な低減を促しつつ、局所的な探索は許容する形に設計しています。
- ETRをGroup Relative Policy Optimization(GRPO)に統合して複数の推論モデル・難しめのベンチマークで評価した結果、DeepSeek-R1-Distill-7Bで精度が9.9%向上し、CoT長は4つのベンチマークで平均67%削減されたと報告しています。
- 実装コードが公開されており、研究コミュニティが追試・導入しやすい形になっています(GitHubリンクあり)。
Related Articles

Black Hat Asia
AI Business
Meta's latest model is as open as Zuckerberg's private school
The Register

AI fuels global trade growth as China-US flows shift, McKinsey finds
SCMP Tech
Why multi-agent AI security is broken (and the identity patterns that actually work)
Dev.to
BANKING77-77: New best of 94.61% on the official test set (+0.13pp) over our previous tests 94.48%.
Reddit r/artificial