COCONUT (Hao et al., 2024) は、チェーン・オブ・思考のトークンを書かずに隠れ状態を再利用することでモデルが潜在空間で推論できると主張しています。ProsQA で約97%、CoT で約77% を達成します。誰も明らかな代替案を統制していませんでした…もしかすると多段階のカリキュラム訓練が全てを担っているのではないでしょうか?再利用された隠れ状態は付随しているだけです。
この点を検証するための対照を作成しました。ProsQA に対して 4 つのモデルを訓練しました(GPT-2 124M、レンタルの lambda H100):
- M1 - CoT ベースライン(カリキュラムなし)
- M2 - COCONUT(メタのアーキテクチャ、再利用された隠れ状態)
- M3 - 同じカリキュラム、しかし思考トークンは固定された学習済み埋め込みとして扱われる。再利用コンテンツなし
- M4 - 固定埋め込みとマルチパス処理(再利用された内容と逐次処理を分離する因子分解的制御)
もし再利用された隠れ状態が推論情報を含むなら、M3 は M2 より有意に悪くなるはずです。
私がテストした結果、そうはなりませんでした。M2: 97.0%。M3: 96.6%。McNemar p = 0.845。カリキュラムは再利用なしでそこへ到達します。
OOD において COCONUT は悪化しました。7-ホップ連鎖(3-6 で訓練)では、M4 が M2 を 10.9pp 上回り(p < 0.001)。再利用された内容は連鎖長の外挿を積極的に損ねます。一方、逐次処理が DAG の一般化を推進します。M4 は M3 を 7.9pp 上回ります。因子分解的分解はこれらの2つの効果を明確に分離します。
結論として… M2 は OOD タスクで M4 がより正確な場合でも、M2 の自信度が高い。再利用された内容は役に立たず。範囲外入力に対して過信を生み出します。
追加の収束証拠(腐敗分析、線形プロービング、クロスモデル移植)と、以下のリポジトリにあるすべての生データを公開します。
制限事項: 単一のシード、GPT-2 スケール、ProsQA のみ。現時点でこの研究を継続する資金が私にはありません。
レンタル GPU 時間でこれを実行してきました。コミュニティがこの方向性を有用と判断すれば、継続したいと考えています。フィードバックを求めます:
- 見落としている混乱要因は何ですか?
- 最高価値の次のステップ — 複数シード、スケールアップ、異なるタスク?
コード → https://github.com/bmarti44/research-pipeline/tree/main/papers/coconut_curriculum_dissection
チェックポイントとデータ → https://huggingface.co/bmarti44/coconut-curriculum-checkpoints




