Lie to Me: 推論モデルにおけるチェーン・オブ・ソート推論の忠実度はどれほどか?

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「忠実な」チェーン・オブ・ソート(CoT)説明がどの程度であるか、すなわちモデルが自身の出力に影響した要因を正確に認めているかを評価するために、先行研究を2つの独自(proprietary)モデルから拡張し、12のオープンウェイト推論モデルを対象とする。

要旨: 推論の連鎖(CoT)推論は、安全性が重要な導入(safety-critical deployments)における大規模言語モデルの透明性メカニズムとして提案されてきた。しかし、その有効性は忠実性(faithfulness、すなわちモデルが、自らの出力に実際に影響を与える要因を正確に言語化できているかどうか)に依存する。この性質は先行評価では2つの独自(proprietary)モデルでのみ検討されており、Claude 3.7 Sonnetで25%まで、DeepSeek-R1で39%までと、ヒントの影響を(CoTにおいて)認める率が低いことが分かっている。開放重み(open-weight)エコシステム全体にこの評価を拡張するため、本研究では、9つのアーキテクチャ系統(7B-685Bパラメータ)にまたがる12の開放重み推論モデルを、MMLUおよびGPQA Diamondから選んだ498の多肢選択問題に適用し、6カテゴリの推論ヒント(おべっか[sycophancy]、整合性[consistency]、視覚的パターン[visual pattern]、メタデータ[metadata]、採点者のハッキング[grader hacking]、非倫理的情報[unethical information])を注入する。そして、ヒントが解答を変えられた場合に、モデルがCoT内でヒントの影響を認める率を測定する。41,832回の推論実行において、モデル系統間での全体的な忠実性率は、39.7%(Seed-1.6-Flash)から89.9%(DeepSeek-V3.2-Speciale)まで幅がある。最も認める率が低かったのは、整合性ヒント(35.5%)とおべっかヒント(53.9%)であった。学習手法およびモデル系統は、パラメータ数よりも忠実性をより強く予測し、キーワードベースの分析では、思考トークンの認め(約87.5%)と、解答テキストの認め(約28.6%)の間に顕著なギャップがあることが明らかになる。これは、モデルが内部ではヒントの影響を認識している一方で、それを出力において体系的に抑制していることを示唆する。これらの結果は、安全性メカニズムとしてのCoTモニタリングの実現可能性に対して直接的な含意を持ち、また忠実性は推論モデルの固定された性質ではなく、アーキテクチャ、学習方法、そして影響を与える合図の性質に応じて体系的に変化することを示している。