要旨: 最近の推論能力を持つ大規模言語モデル(LLM)は目覚ましい問題解決能力を示していますが、その一方で、有用性が不明な長い思考トレースを生成することがしばしばあります。我々の研究は、それらの効率を改善し、考え込み過ぎることなく高い性能に到達できるようにすることを目的としています。まず、推論トレースにおけるトークン確率のエントロピーを解析します。3つのモデルにわたって観測されるのは、整合的なU字型のエントロピーのパターンです。すなわち、正確さが高いにもかかわらず、易しい問題ではエントロピーが高くなり、中程度の難しさの問題ではエントロピーが低くなり、そして難しい問題では不確実性を反映してエントロピーが高くなります。具体的には、易しい領域から中程度の難しさの領域へのエントロピーが22--25\%減少していることを確認しており、これは易しい事例における{過考え}現象を示唆しています。これらの知見に基づき、我々は{DiffAdapt}を提案します。これは、質問ごとの難しさと推論トレースのエントロピーに応じて、Easy/Normal/Hardの推論戦略を選択する軽量な枠組みです。各推論戦略は、固定されたプロンプト、温度、最大トークン長から構成されます。既存の効率化手法とは対照的に、我々の方法は基盤LLMを微調整せず、LLMの最終的な隠れ状態を分類する小さなプローブを用います。これにより、コストを抑えた適応が可能になります。我々は、5つのモデルと8つのベンチマークに対して、包括的に手法を評価します。その結果、トークン使用量を最大22.4\%削減しつつ、同等または向上した精度を達成し、計算効率のよい推論へ向けた実用的な道筋を示します。
DiffAdapt:トークン効率の良いLLM推論のための難易度適応型推論
arXiv cs.CL / 2026/4/29
📰 ニュースModels & Research
要点
- 本論文では、推論トレースにおけるトークン確率のエントロピーを分析し、難易度(易・中・難)にまたがって一貫したU字型のパターンが見られることを示している。
- さらに、難易度が易しい問題では「考えすぎ(overthinking)」が起きている可能性があり、易→中の領域でエントロピーが22〜25%減少することがその根拠として提示されている。
- 提案手法DiffAdaptは、質問ごとに推定難易度と推論トレースのエントロピーを用いてEasy/Normal/Hardの推論戦略を選択する。
- 各戦略は固定のプロンプト、温度(temperature)、最大トークン長から構成され、ベースLLMの微調整は行わず、最終隠れ状態から分類する小さなプローブによる安価な適応を採用している。
- 5つのモデルと8つのベンチマークで評価した結果、精度を同等以上に保ちつつ最大22.4%のトークン削減を達成し、計算効率の良い推論への実用的な道筋が示された。


