MonitorBench：大規模言語モデルにおけるチェーン・オブ・ソート（CoT）のモニタリング可能性を評価する包括的ベンチマーク

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、最終回答の背後にある意思決定上の重要要因がCoTに反映されない可能性がある状況下で、大規模言語モデル（LLM）におけるチェーン・オブ・ソート（CoT）のモニタリング可能性（monitorability）を評価するためのオープンソース・ベンチマークであるMonitorBenchを提案する。
MonitorBenchは、CoTがLLMの意思決定上の要因の信頼できるモニタとして機能し得る条件を狙って、19のタスクに整理された1,514件の入念に構築されたテストインスタンスを含む。
複数の主要なLLMに対する実験の結果、最終応答を生成するには意思決定上の重要要因に対する構造的推論が必要となる場合、モニタリング可能性はより高くなる傾向が示される。
本研究は、クローズドソースのモデルは一般にモニタリング可能性が低く、さらにモニタリング可能性がモデルの能力と負の相関を持ち得ることを報告する。
2つのストレステスト設定を用いて、著者らは、オープンソースおよびクローズドソースの双方のLLMが意図的にモニタリング可能性を低下させ得ることを示し、意思決定上の重要要因に関する構造的推論に依拠しないタスクでは低下が最大で約30%に達することを明らかにする。

要旨: 大規模言語モデル（LLM）は、最終出力に対して必ずしも因果的に責任を負うわけではない思考連鎖（CoT）を生成できます。このような不一致が生じると、CoTは、モデルの挙動を駆動する決定に重要な要因を忠実に反映しなくなり、その結果、CoTモニタビリティ低下問題が引き起こされます。しかし、CoTモニタビリティを研究するための包括的で完全にオープンソースなベンチマークは、依然として不足しています。このギャップに対処するために、私たちはMonitorBenchを提案します。MonitorBenchは、LLMにおけるCoTモニタビリティを評価するための体系的なベンチマークです。MonitorBenchは次を提供します: （1）7カテゴリにまたがる19のタスクを通して、決定に重要な要因を慎重に設計した、1,514の多様なテスト用インスタンスの集合により、どのようなときにCoTを用いてLLMの挙動を駆動する要因をモニタできるかを特徴付けること；および（2）CoTモニタビリティがどの程度劣化し得るかを定量化するための2つのストレステスト設定です。能力が異なる複数の主要LLMに対して大規模に行った広範な実験の結果、最終的な目標応答の生成において、決定に重要な要因を介した構造的推論が必要となる場合には、CoTモニタビリティがより高いことが示されました。クローズドソースのLLMは一般にモニタビリティが低く、さらに、モニタビリティとモデル能力の間には負の相関関係が存在します。加えて、ストレステストでは、オープンソースおよびクローズドソースの両方のLLMが意図的にモニタビリティを低下させることができ、一部のタスクでは構造的推論を決定に重要な要因に対して必要としないにもかかわらず、モニタビリティが最大30%低下することが確認されました。これらの実証的知見に加えて、MonitorBenchは、将来のLLMの評価、先進的なストレステストにおけるモニタビリティ技術の研究、そして新しいモニタリング手法の開発のための基盤を提供します。