「違反した制約」をモデルは想起する:マルチターンLLMのアイデア創出における制約順守

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、マルチターンでLLMにより科学的アイデアを反復的に洗練する際に、元の目的(制約)への忠実性が保たれるかを評価するベンチマーク「DriftBench」を提案している。
  • 2,146回の実験(7モデル、4つの対話条件、38の研究ブリーフ)では、反復的な洗練が構造の複雑性を高める一方で、元の制約への順守がしばしば低下することが示された。
  • 「restatement probe」により、モデルは制約を正確に言い換え(想起)できるにもかかわらず実際には破っている、という乖離が明らかになった(KBV率はモデルにより8%〜99%)。
  • チェックポイント(構造化された中間保存)によりKBV率は一部で低減できるが、宣言的な想起と行動上の順守の不一致は解消できず、複雑性の増大も継続した。
  • ブリーフ、プロンプト、ルーブリック、トランスクリプト、スコアを含むベンチマーク一式を公開し、LLMベースの判定は制約違反を過小検出しがちなため、自動的な順守スコアは控えめになっていることも分かった。

要旨: 研究者が大規模言語モデルを用いて反復的にアイデアを洗練させるとき、モデルは元の目的への忠実性を保つのだろうか?本研究では、マルチターンのLLM支援による科学的着想における制約遵守を評価するためのベンチマーク「DriftBench」を導入する。5つの提供元からの7つのモデル(2つのオープンウェイトを含む)、4つの相互作用条件、24の科学領域からの38本の研究ブリーフにわたる、2,146件の採点済みベンチマーク実行を通じて、反復による圧力が構造の複雑さを確実に増大させ、同時に元の制約への遵守をしばしば低下させることを見出した。言い換えプローブは、宣言的な想起と行動上の遵守との間に解離があることを明らかにする。すなわち、モデルは破っている制約を正確に言い換えて復唱できている一方で、それらを同時に違反している。保持された想起にもかかわらず制約非遵守を測る「知っているが違反する(KBV)」率は、モデル間で8%から99%の範囲に及ぶ。構造化されたチェックポイント取得は部分的にKBV率を低減するものの、この解離を解消することはできず、複雑さのインフレ(膨張)も持続する。盲検の評価者に対する人手検証により、LLM判定器が制約違反を過小検出しており、報告される制約遵守スコアは保守的(低め)になっていることが確認された。感度分析により、温度(0.7 vs. 1.0)および圧力の種類(新規性 vs. 厳密さ)に対して、これらの知見は頑健であることが示された。すべてのブリーフ、プロンプト、ルーブリック、トランスクリプト、スコアをオープンベンチマークとして公開する。