書く前にもう一度考えて——LLM推論を強化するためのエントロピーに基づくデコーディング戦略

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、トークン単位の不確実性に基づいて、LLM生成中にいつ分岐するかを適応的に判断するエントロピー誘導型デコーディング戦略を提案し、誤りの伝播と不要な探索を低減することを目指します。
一様にサンプリングや自己整合性ロールアウトを適用するのではなく、部分ロールアウトの動的なプールを維持し、エントロピーが高い（脆弱な）位置で主に拡張します。
オーバーヘッドを下げるために、本手法はロールアウト単位の「Entropy After </Think>（EAT）」という停止基準を用い、中間ステップごとに評価するのではなく、推論トレース全文の後でエントロピーを評価します。
GSM8K、AMC2023、そして摂動を加えた派生データでの実験により、一貫して高い精度が示されます。小規模モデルではGPT-5と同等に近い結果も得られつつ、必要コストはその一部に抑えられています。

概要: デコード戦略は、大規模言語モデル（LLM）の推論能力を形成する上で中核的な役割を果たします。貪欲デコードやビームサーチのような従来手法は、しばしば誤りの伝播に悩まされます。一方、サンプリングに基づくアプローチは、十分な頑健性を伴わないままランダム性を導入します。自己整合性は複数のロールアウトを集約することで信頼性を高めますが、計算コストの大きな増加を伴います。そこで本研究では、生成にトークン単位の適応性を導入する、エントロピー誘導型デコード枠組みを提案します。各ステップにおいてモデルはトークン分布のエントロピーを計算し、不確実性の高い位置を特定したうえで、その脆弱な点に対して選択的に分岐します。部分ロールアウトの動的プールを維持し、解が完成するまで拡張します。これにより、不確実性が最も大きい箇所に計算を集中させ、確信のある領域での不要な探索を回避します。効率的な終了を可能にするために、すべての推論トレースを完了した後でエントロピー評価を行う、ロールアウト単位の Entropy After (EAT) 停止基準を適用します。すなわち、各ステップごとに逐次的に評価するのではなく、推論トレース全体の後で評価します。GSM8K、AMC2023、およびそれらの摂動版に関する実験により、本手法が一貫して高い精度を達成することを示します。特に、小規模なLLMにおいては、GPT-5と同等の性能を、コストの一部で実現します。