異なる複数ティーチャーによる協調的な段階ステップ推論の蒸留：Long-CoT推論を扱うデコーディング

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、Long-CoT推論を実用化するには大規模推論モデルの蒸留が重要であり、完全な推論は計算コスト的に現実的でないと述べています。
従来のキュレーションに基づく蒸留では推論トレースを事後に丸ごと選んでしまい、異種ティーチャー間の協調や動的な探索が不足しているため、冗長なサンプリングや補完的な推論の取り逃しが起きると指摘しています。
提案手法のCoRDは、予測的なパープレキシティに基づくスコアリングとビームサーチを用いて、段階的に推論軌跡を協調的に合成します。
実験では、CoRDがより質の高い推論データを生成し、効率オーバーヘッドを大きく増やすことなく、より少ない構造化された教師信号で学生モデルがティーチャーに近い性能を達成することが示されています。
また、提案はドメイン外やオープンエンド設定にも一般化でき、データセットとモデルはGitHubで公開されています。