推論が破綻する場所:論理結合子を制御することでLLMの推論チェーンにおける論理に配慮した経路選択を行う

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMの推論が多段の論理的演繹で脆くなり得る主因として、個々の遷移ミスが推論チェーン全体に波及して不安定な性能につながる点を指摘している。
  • 実証分析により、論理結合子トークンが高エントロピーな「分岐点」として機能し、モデルが正しい論理的な向きを選ぶのに頻繁に困難を抱えることが示されている。
  • 著者らは、論理結合子の選択に介入することで、LLMがより正しい推論経路へと導かれるのではないかという仮説を提起している。
  • その検証として、勾配ベースの論理スティアリング、限定的なブランチング(狙いを定めた先読み探索)、論理的な分岐点での単一トークン選好を最適化する強化学習(遷移選好最適化)を組み合わせた多層フレームワークを提案している。
  • 介入を論理クリティカルな遷移にだけ集中させることで、ビームサーチや自己整合性(self-consistency)のような推論全体を広くスケールする手法よりも、精度と効率のトレードオフが良好になることを示している。

要旨: LLMは印象的な推論能力を示す一方で、マルチステップの論理的演繹においては脆弱性を残している。そこでは、1つの遷移エラーが推論チェーン全体へと伝播し、不安定な性能につながりうる。本研究では、この構造的な脆弱性の主要なポイントとして、論理結合子(logical connectives)を特定する。実証分析により、結合子トークンは高エントロピーな分岐点として機能し、モデルが正しい論理の方向を決めることにしばしば苦戦することを示す。この観察に動機づけられ、論理結合子の選択に介入することで、LLMをより正しい論理の方向へ導けるのではないか、ひいては推論チェーン全体の改善につながるのではないかと仮説を立てる。仮説を検証するために、推論プロセス中のこれらの論理的に重要な分岐点に対して、特にそこへ介入する多層的フレームワークを提案する。私たちのフレームワークは、(1) 勾配ベースの論理ステアリングにより、LLMの内部表現を妥当な推論サブスペースへ誘導すること、(2) 局所化された分岐により、狙いを定めた先読み探索(look-ahead search)で曖昧さを解消すること、そして(3) 標的付き遷移嗜好最適化(Targeted Transition Preference Optimization)という手術的な強化学習目的により、論理の転換点(logical pivots)での単一トークン嗜好を選択的に最適化すること、を含む。重要なのは、介入を論理的に重要な遷移にのみ集中させることで、ビームサーチや自己整合性(self-consistency)といった推論時間の全体的スケーリング手法と比較して、有利な精度—効率のトレードオフを達成する点である。