[D] メタの COCONUT に関する厳密な実験を実施し、“潜在的推論”はほとんど良い訓練に過ぎないことを発見。再利用された隠れ状態は実際には一般化を害する

Reddit r/MachineLearning / 2026/3/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者は、COCONUT の再利用された隠れ状態が潜在的推論を持つかを検証するため、4つの GPT-2 124M モデルを用いた対照実験を実施し、固定カリキュラムと比較して明確な利点がないことを発見した（M2 97.0% vs M3 96.6%、p=0.845）。
ProsQA のドメイン内結果では、カリキュラムだけが性能を説明しており、再利用された状態からの潜在的推論が高精度の駆動力ではないことを示唆している。
分布外の7ホップ連鎖では、M4 構成（固定埋め込みとマルチパス処理）は M2 を 10.9 ポイント上回り、M3 を 7.9 ポイント上回る。逐次処理が DAG の一般化を推進し、再利用された内容が外挿を害することを示している。
再利用された内容は範囲外入力に対して過信を増やし、精度が低い場合でも信頼性を損なう。
追加の収束証拠（腐敗分析、線形プロービング、クロスモデル移植）と、データ/コードを共有するが、単一のシード、GPT-2 スケール、ProsQA の範囲に限定されるため、フィードバックと次のステップを求めている。

COCONUT (Hao et al., 2024) は、チェーン・オブ・思考のトークンを書かずに隠れ状態を再利用することでモデルが潜在空間で推論できると主張しています。ProsQA で約97%、CoT で約77% を達成します。誰も明らかな代替案を統制していませんでした…もしかすると多段階のカリキュラム訓練が全てを担っているのではないでしょうか？再利用された隠れ状態は付随しているだけです。

この点を検証するための対照を作成しました。ProsQA に対して 4 つのモデルを訓練しました（GPT-2 124M、レンタルの lambda H100）：

M1 - CoT ベースライン（カリキュラムなし）
M2 - COCONUT（メタのアーキテクチャ、再利用された隠れ状態）
M3 - 同じカリキュラム、しかし思考トークンは固定された学習済み埋め込みとして扱われる。再利用コンテンツなし
M4 - 固定埋め込みとマルチパス処理（再利用された内容と逐次処理を分離する因子分解的制御）

もし再利用された隠れ状態が推論情報を含むなら、M3 は M2 より有意に悪くなるはずです。

私がテストした結果、そうはなりませんでした。M2: 97.0%。M3: 96.6%。McNemar p = 0.845。カリキュラムは再利用なしでそこへ到達します。

OOD において COCONUT は悪化しました。7-ホップ連鎖（3-6 で訓練）では、M4 が M2 を 10.9pp 上回り（p < 0.001）。再利用された内容は連鎖長の外挿を積極的に損ねます。一方、逐次処理が DAG の一般化を推進します。M4 は M3 を 7.9pp 上回ります。因子分解的分解はこれらの2つの効果を明確に分離します。

結論として… M2 は OOD タスクで M4 がより正確な場合でも、M2 の自信度が高い。再利用された内容は役に立たず。範囲外入力に対して過信を生み出します。

追加の収束証拠（腐敗分析、線形プロービング、クロスモデル移植）と、以下のリポジトリにあるすべての生データを公開します。

制限事項: 単一のシード、GPT-2 スケール、ProsQA のみ。現時点でこの研究を継続する資金が私にはありません。

レンタル GPU 時間でこれを実行してきました。コミュニティがこの方向性を有用と判断すれば、継続したいと考えています。フィードバックを求めます：