SPREG:大規模言語モデルの推論に対するエントロピー誘導テスト時介入による構造化プラン修復

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、長い推論過程における論理的なハルシネーションやエントロピーに起因するドリフトを修正するための、軽量な推論時フレームワークSPREGを提案する。
  • SPREGは、リアルタイムのエントロピーを監視し、「エントロピー・スパイク」を論理失敗の信頼できる兆候として検出する。
  • スパイクを検知すると、意味的に有用でないnull-priorを、過去の高信頼状態から合成した参照分布に置き換えることで、推論を“外科的に”修復する。
  • ActionやObservationといった構造化推論ステージに応じて誘導(CFG)の強度を調整し、安定した状態へ戻しつつ流暢さを損なわないようにする。
  • 実験ではAIME25で絶対精度が20.0%向上し、複雑なタスクでの制御不能なエントロピードリフトも抑制できたと報告している。

要旨: 大規模言語モデル(LLM)は、長い推論連鎖の間に論理的な幻覚や確率的ドリフトを起こしやすい。分類器フリー誘導(CFG)は指示への従属性を改善できるものの、標準的な静的実装はしばしば意味の希薄化や言語面での劣化を招く。そこで本研究では、外科的な誤りの修正のための、軽量な推論時フレームワークであるSPREG(Structured Plan-guided Real-time Entropy Gating)を提案する。SPREGは、リアルタイムのエントロピーを監視するための適応的な二重閾値メカニズムを用い、論理的失敗の信頼できる指標として突発的な「エントロピー・スパイク」を検出する。検出後、情報を持たないヌル事前分布を、過去の高信頼状態から合成した参照分布に置き換えることで、動的な修復を起動する。さらに、構造化された推論ステージ(例:Action、Observation)に応じて誘導強度を調整することで、流暢さを損なうことなくモデルを安定したマニフォールドへと導く。実験の結果、AIME25において絶対精度が20.0%向上するなど顕著な改善が示され、複雑なタスクにおける制御不能なエントロピー・ドリフトを効果的に抑制できることが確認された。