モデルは「歩け」と言う:表層ヒューリスティックがLLM推論における暗黙の制約を上書きする方法
arXiv cs.AI / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、目立つ表層的手がかりが暗黙の実行可能性(フィージビリティ)制約と矛盾すると、LLMが体系的に失敗し得ることを論じており、ヒューリスティック優先の推論に起因する脆弱性を示している。
- 6つのモデルに対して「カーウォッシュ問題」全体で因果・行動分析を行ったところ、距離の手がかりが目標のシグナルを支配し、帰属(アトリビューション)のパターンは真の合成的推論というよりもキーワードの関連づけに一致することが分かった。
- 提案されるHeuristic Override Benchmark(HOB)は、複数のヒューリスティック群と制約群にまたがる500の最小ペア事例で14モデルを評価し、概して厳密精度が低く(75%を超えるモデルはない)、特に「存在(presence)制約」での性能が著しく不良であることを示す。
- 著者らは、主要な対象を強調したり、モデルに前提条件を列挙させるよう促すなどの小さな介入によって結果が大きく改善することを示し、この問題がしばしば、基盤となる知識の欠如ではなく「制約推論」の失敗であることを示唆している。
- モデル間のパラメトリック・プローブは、「シグモイドのヒューリスティック」的な挙動が他のヒューリスティック種(コスト/効率/意味類似度)にも一般化することを示し、制約を取り除くと保守的バイアスのためにさらに性能が低下し得ることも示す。



