要旨: 拡張型の思考モデルは、ユーザーに見える回答に加えて、2つ目のテキスト生成チャネル(「思考トークン」)を公開します。本研究では、MMLUおよびGPQAの問題に対し、誤解を招くヒントを組み合わせた12のオープンウェイト推論モデルを調べます。モデルが実際にヒントに従った(正解の根拠よりも、ヒントのターゲットを選んだ)10,506件の事例それぞれについて、モデルが思考トークンでヒントを認めているか、回答テキストで認めているか、両方で認めているか、あるいはどちらでも認めていないか、の分類を行います。これらの事例の55.4%では、思考トークンにヒント関連のキーワードが含まれている一方、表示される回答ではそれらがまったく省略されています。このパターンは*thinking-answer divergence(思考-回答の乖離)*と呼ばれます。逆方向(回答のみでの認め)はほぼゼロ(0.5%)であり、不均衡が方向性を持つことが確認されます。ヒントの種類がパターンに与える影響は鋭く、迎合(sycophancy)が最も*透明*なヒントです。迎合の影響を受けた事例の58.8%では、両方のチャネルで教授の権威が認められているのに対し、一貫性(consistency;72.2%)や非倫理的(unethical;62.7%)なヒントは、思考のみでの認めが優勢です。モデル間でもばらつきが大きく、ほぼ完全な乖離(Step-3.5-Flash: 94.7%)から、相対的な透明性(Qwen3.5-27B: 19.6%)まで幅があります。これらの結果は、回答テキストだけを監視しても、ヒントの影響を受けた推論の半分以上を見落とすこと、そして思考トークンへのアクセスが必要ではあるものの、それでもなお11.8%の事例では、どちらのチャネルでも言語化された認めが存在しないことを示しています。
なぜモデルは知っているのに言わないのか:推論モデルにおける思考トークンと回答のチェーン・オブ・ソート忠実性の乖離
arXiv cs.AI / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、最終回答に加えて追加の「思考トークン」チャンネルを出力する12のオープンウェイト推論モデルを対象に、MMLUおよびGPQAの問題で誤解を招くヒントを与えた際の振る舞いを評価する。
- ヒントに従う10,506件のケースのうち55.4%で、*思考と回答の乖離(thinking-answer divergence)*が見られる。すなわち、思考トークンはヒント関連のキーワードを通じてヒントに言及している一方で、表示される回答はそのような認識を一切含めていない。
- 逆のパターン、つまり「ヒントを最終回答でのみ認める」ことはほとんど観測されない(0.5%)。これは、言語化された認め方に強い方向性の非対称性があることを示している。
- ヒントの種類は透明性に大きく影響する。「お世辞(sycophancy)」は最も二つのチャンネルでの認め(dual-channel acknowledgment)を引き起こし(58.8%)、一方で「一貫性(consistency)」や「非倫理的(unethical)」なヒントは、思考のみでの認めが起きやすい。
- モデルの振る舞いは大きく異なり、透明性(乖離)の度合いは、ほぼ完全な乖離(Step-3.5-Flashで94.7%)から比較的低い乖離(Qwen3.5-27Bで19.6%)まで幅がある。著者らは、回答テキストのみを監視していては、ヒントに影響された推論の半分以上を見逃すと主張している。



