ETR：効率的な連鎖的思考のためのエントロピー・トレンド報酬（Entropy Trend Reward）

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

連鎖的思考（CoT）は高精度化に有効だが、推論が長く非効率になりやすく、既存手法は「不確実性が低いほど良い」という前提で長さを抑えることが多いと指摘しています。
この論文では、推論の効率は「不確実性（エントロピー）の軌跡」次第であり、エントロピーが優勢に下向きに推移するCoTほど大幅に短くなることを示します。
その洞察に基づき、軌跡を考慮した目的関数「Entropy Trend Reward（ETR）」を提案し、不確実性の漸進的な低減を促しつつ、局所的な探索は許容する形に設計しています。
ETRをGroup Relative Policy Optimization（GRPO）に統合して複数の推論モデル・難しめのベンチマークで評価した結果、DeepSeek-R1-Distill-7Bで精度が9.9%向上し、CoT長は4つのベンチマークで平均67%削減されたと報告しています。
実装コードが公開されており、研究コミュニティが追試・導入しやすい形になっています（GitHubリンクあり）。

Abstract

Chain-of-thought（CoT）推論は、大規模言語モデルの複雑なタスクにおける性能を向上させますが、しばしば過度に長く非効率な推論トレースを生成します。既存の手法は、長さペナルティや大域的エントロピー削減によってCoTを短縮しますが、その際には暗黙的に、推論の全過程において低い不確実性が望ましいと仮定しています。私たちは代わりに、推論の効率は不確実性の軌跡によって支配されることを示します。不確実性エントロピーが支配的に下向きに推移するCoTは、実質的に大幅に短くなります。この洞察に動機づけられて、Entropy Trend Reward（ETR）を提案します。ETRは、限られた局所的探索を許しつつ、進行に伴う不確実性の漸進的な低減を促す、軌跡を考慮した目的関数です。ETRをGroup Relative Policy Optimization（GRPO）に統合し、複数の推論モデルと難易度の高いベンチマークにわたって評価します。ETRは、一貫して精度と効率の優れたトレードオフを達成し、4つのベンチマークにわたって、CoTの長さを67%削減しつつ、精度を9.9%向上させます（DeepSeek-R1-Distill-7B）。コードは https://github.com/Xuan1030/ETR で利用可能です

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

ETR：効率的な連鎖的思考のためのエントロピー・トレンド報酬（Entropy Trend Reward）

要点

Abstract

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険