コンプライアンス対センス:大規模言語モデルにおける推論の制御可能性について

arXiv cs.CL / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの中核的な推論能力(帰納・演繹・アブダクション)を特定の問題インスタンスから切り離して制御性を高められるかを検討する。
  • 「推論コンフリクト」を用い、ターゲット課題が期待するものから逸脱した論理スキーマに従うよう強制することで、LLMは一貫して“コンプライアンス”よりも“筋の通った(センスのある)”推論を優先することが明らかになった。
  • 課題精度はセンスのみに厳密に決まるわけではなく、矛盾するパターンでも高い性能を維持する場合が多いことから、大きいモデルほど強まる内部化されたパラメトリック・メモリへの依存が示唆される。
  • 推論コンフリクトは内部的にも検出可能であり、競合場面では信頼度(confidence score)が有意に低下することが示される。
  • メカニズムに基づく誘導によりコンプライアンスへ寄せることで、指示追従が最大29%向上し、論理スキーマをデータから切り離すことで制御性・忠実性・汎化性を高められる道筋が示された。

要旨: 大規模言語モデル(LLM)は、事前学習データにおける推論パターンの共有を通じて推論能力を獲得することが知られており、その能力はさらに、Chain-of-Thought(CoT)の実践によって引き出されます。しかし、帰納、演繹、アブダクションといった基本的な推論パターンが、特定の問題インスタンスから切り離し可能かどうかは、モデルの制御可能性や、推論の制御可能性に光を当てるうえで、依然として重要な課題です。本論文では、推論の衝突という観点から、この問題に対する最初の体系的な調査を提示します。すなわち、あるターゲット課題で期待されるものとは異なる論理スキーマを強制することで生じる、パラメトリック情報とコンテキスト情報のあいだの明示的な緊張です。評価の結果、LLMは一貫して、指示への従属性よりも妥当性を優先し、衝突する指示があるにもかかわらず、課題に適した推論パターンを選好することがわかりました。特に、課題の正確性は妥当性によって厳密に決まるわけではなく、モデルはしばしば衝突するパターンを用いている場合でも高い性能を維持しています。これは、モデルサイズの増大に伴って強まる内部化されたパラメトリック・メモリへの依存が示唆されます。さらに、推論の衝突は内部的に検出可能であり、衝突エピソードの間に自信度スコアが有意に低下することを示します。探針実験により、推論タイプは中期から後期の層にかけて線形に符号化されていることが確認され、活性レベルでの制御可能性の可能性が示されます。これらの知見を活用し、我々はモデルを順守へと導き、指示追従を最大29%まで向上させます。総じて、本研究の結果は、LLMの推論が具体的なインスタンスに基づいている一方で、能動的なメカニズム介入によって論理スキーマをデータから効果的に切り離すことができ、制御可能性、忠実性、一般化可能性の向上への道が開けることを示しています。