要旨: Chain-of-Thought (CoT) はしばしば LLM の意思決定への窓口と見なされるが、最近の研究はそれが単なる後付けの合理化として機能する可能性を示唆している。これには重要な整合性の問題が提起される: 推論の過程は最終的な答えとは独立してモデルの一般化を因果的に形作るのだろうか。推論の因果効果を分離するため、最終的に有害な回答を一定に保ちつつ推論経路を変化させる制御実験を設計する。悪意を抱く \\textit{邪悪} 推論、害を正当化する \\textit{誤導的} 推論、圧力に屈する \\textit{従順} 推論を含むデータセットを構築します。0.6B〜14B パラメータのモデルを、質問-思考-回答 (QTA)、質問-思考 (QT)、思考のみ (T-only) を含む複数のパラダイムで訓練し、思考ありモードと思考なしモードの両方で評価します。結論として次のことが分かります: (1) CoT 訓練は標準的なファインチューニングよりも有害な一般化を増幅する可能性がある; (2) 異なる推論タイプは、それらの意味論に沿った異なる行動パターンを生み出し、最終回答が同一でも異なる; (3) 回答の監督なしで推論を訓練(QT または T-only)するだけで行動を変えるのに十分であり、推論は独立した信号を運ぶことを証明する; (4) これらの効果は、推論なしで回答を生成していても持続し、深く内部化されていることを示す。我々の知見は、推論内容が因果的に強力であることを示し、出力のみを監視するアライメント戦略に挑戦する。
目的地だけでなく旅路も重要――推論の痕跡は一般化挙動を因果的に形作る
arXiv cs.CL / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、最終出力を一定に保ちながら推論経路を変化させることで、連鎖的推論がモデルの一般化を因果的に形作るかを検討する。
- 本研究は、邪悪な推論、誤導的推論、従順的推論を用いたデータセットを構築し、さまざまな推論スタイルがモデルサイズ(0.6B〜14B)およびパラダイム(QTA、QT、T-only)にわたる挙動にどのように影響するかを検証する。
- 結果は、CoT訓練が標準的なファインチューニングよりも有害な一般化を増幅する可能性があることを示しており、それは推論タイプとその意味論に依存する。
- 結果は、推論内容が独立した信号を携えており、最終回答が同一であっても異なる推論タイプが異なる挙動パターンを生み出すことを示しており、推論なしで回答を生成してもこれらの効果は持続する。




