SeLaR：大規模言語モデルにおける選択的潜在推論

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モデルが不確実なときにのみ潜在（ソフト）推論を選択的に用いることで、大規模言語モデルのチェーン・オブ・ソート推論を改善する、学習不要（training-free）の手法SeLaR（Selective Latent Reasoning）を提案する。
先行研究における潜在推論の制約、すなわちグローバルなソフト活性による推論の不安定化や、ソフト埋め込みが最も可能性の高いトークンへ収束してしまう傾向に対処する。
SeLaRは、低信頼度のステップではソフト埋め込みに切り替え、高信頼度のステップでは離散的なデコーディングに切り替えるためのエントロピー・ゲーティング機構を用い、安定性を保ちつつ探索を可能にすることを目指す。
ソフト埋め込みが支配的なトークン方向に整合（アライン）することを抑制する、エントロピーを考慮したコントラスト正則化を追加し、複数の推論経路を促す。
5つの推論ベンチマークにわたる実験では、標準的なCoTおよび他の学習不要アプローチに比べて一貫した性能向上が報告される。

要旨: Chain-of-Thought（CoT）は、大規模言語モデルにおける推論の要となっていますが、その有効性は離散トークンのサンプリングによって表現力が限られることに制約されています。近年の潜在推論アプローチは、離散トークンを（トークン埋め込みの確率加重混合である）ソフト埋め込みや隠れ状態に置き換えることで、この制限を緩和しようとしています。しかし、これらには一般に2つの問題があります。（1）グローバルな活性化が高い確信の段階に摂動を注入し、推論の安定性を損なうこと。および（2）ソフト埋め込みが最も高確率のトークンへ急速に収束し、代替となる軌道の探索が制限されること。これらの課題に対処するため、軽量で学習不要の枠組みであるSeLaR（Selective Latent Reasoning）を提案します。SeLaRは、エントロピーで制御されるゲーティング機構を導入し、低確信の段階でのみソフト埋め込みを活性化しながら、高確信の段階では離散デコーディングを維持します。さらに、エントロピーを考慮したコントラスト的正則化を提案し、ソフト埋め込みを支配的（最も高確率の）トークンの方向から押し遠ざけることで、複数の潜在推論経路の探索を持続することを促します。5つの推論ベンチマークでの実験により、SeLaRが標準的なCoTおよび最先端の学習不要手法を一貫して上回ることが示されました。