広告

モデルは「歩け」と言う:表層ヒューリスティックがLLM推論における暗黙の制約を上書きする方法

arXiv cs.AI / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、目立つ表層的手がかりが暗黙の実行可能性(フィージビリティ)制約と矛盾すると、LLMが体系的に失敗し得ることを論じており、ヒューリスティック優先の推論に起因する脆弱性を示している。
  • 6つのモデルに対して「カーウォッシュ問題」全体で因果・行動分析を行ったところ、距離の手がかりが目標のシグナルを支配し、帰属(アトリビューション)のパターンは真の合成的推論というよりもキーワードの関連づけに一致することが分かった。
  • 提案されるHeuristic Override Benchmark(HOB)は、複数のヒューリスティック群と制約群にまたがる500の最小ペア事例で14モデルを評価し、概して厳密精度が低く(75%を超えるモデルはない)、特に「存在(presence)制約」での性能が著しく不良であることを示す。
  • 著者らは、主要な対象を強調したり、モデルに前提条件を列挙させるよう促すなどの小さな介入によって結果が大きく改善することを示し、この問題がしばしば、基盤となる知識の欠如ではなく「制約推論」の失敗であることを示唆している。
  • モデル間のパラメトリック・プローブは、「シグモイドのヒューリスティック」的な挙動が他のヒューリスティック種(コスト/効率/意味類似度)にも一般化することを示し、制約を取り除くと保守的バイアスのためにさらに性能が低下し得ることも示す。

Abstract

大規模言語モデルは、顕著な表層的合図が、述べられていない実行可能性の制約と矛盾するとき、体系的に失敗します。私たちはこれを、診断(diagnose)・測定(measure)・架橋(bridge)・治療(treat)の枠組みで研究します。6つのモデルにまたがる「カーワッシュ問題」の因果的な行動分析により、約文脈非依存のシグモイド状ヒューリスティックが明らかになります。距離の合図は目標より8.7〜38倍強い影響を及ぼし、トークン単位の帰属は、構成的推論よりもキーワード関連のパターンとより整合的です。ヒューリスティック・オーバーライド・ベンチマーク(HOB)――最小ペアと明示性グラデーションを備えた、4つのヒューリスティック×5つの制約ファミリーにまたがる500インスタンス――は、14のモデルすべてに対して一般性を示します。厳格な評価(10/10正解)では、いかなるモデルも75%を超えず、制約の存在(presence)では最も難しく(44%)なります。最小限のヒント(例:主要な対象を強調すること)により平均で+15 ppが回復し、失敗の原因が知識の欠落ではなく、制約推論にあることを示唆します。制約を取り除くと、12/14のモデルがより悪化します(最大-39 pp)。これは保守的バイアスを明らかにします。パラメトリック・プローブは、シグモイド状のパターンが、コスト、効率、意味的類似性のヒューリスティックにも一般化することを確認します。目標分解を促すプロンプトは、答える前に前提条件を列挙するよう強制することで、+6〜9 ppの回復をもたらします。これらの結果を通じて、ヒューリスティック・オーバーライドを、体系的な推論上の脆弱性として特徴づけるとともに、それを解消するための進展を測定するベンチマークを提供します。

広告