CoTEvol：数学的推論におけるデータ合成のための自己進化型チェーン・オブ・ソート

arXiv cs.AI / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Chain-of-Thought（CoT）生成を推論軌跡に対する集団ベースの探索として扱う遺伝的進化フレームワーク「CoTEvol」を提案しています。
CoTEvolは、軌跡レベルでの省察的グローバル交叉と、ステップレベルでの不確実性に導かれた局所突然変異により、全体的な組み合わせと細かな改良の両立を目指します。
随伴する探索を「正確さ」と「多様性」の両面で導くために、軽量なタスク適応型の適応度関数を用います。
数学タスクでの実験では、正しいCoTの合成成功が30%以上改善し、構造的多様性も増大し、さらに既存手法より効率が高いことが示されています。
CoTEvolで生成した進化的CoTデータで学習したLLMは、8つの数学ベンチマークで平均6.6%の向上を達成し、数学的推論性能をスケールして改善できる可能性を示唆しています。

要旨: 大規模言語モデル（LLM）は、中間手順を明示する高品質なChain-of-Thought（CoT）で学習すると、強い数学的推論能力を示す一方で、CoTの選別・キュレーションにはコストがかかり、さらなる進展を妨げている。強力なLLMからの蒸留や、テスト時探索に基づく自己合成といった既存の対策はこの問題を緩和するものの、多くの場合、逓減する効果（漸減）に悩まされるか、あるいは高い計算オーバーヘッドを要する。本研究では、CoT生成を推論軌跡に対する集団ベースの探索として捉える、遺伝的進化フレームワークであるCoTEvolを提案する。候補となる軌跡は、軌跡レベルでの反省的な大域的交叉と、ステップレベルでの不確実性に導かれる局所突然変異によって、反復的に進化させる。これにより、全体的な組合せ（ホリスティックな再結合）と、細粒度の改良が可能になる。進化プロセスを正確かつ多様な推論へと導くために、軽量でタスクに適応した適応度関数を設計する。実験的に、CoTEvolは正しいCoT合成の成功率を30%以上改善し、構造的多様性を高めつつ、効率も大幅に向上させる。これらの進化的CoTデータで学習したLLMは、8つの数学ベンチマークにわたって平均6.6%の向上を達成し、従来の蒸留や自己合成の手法を上回る。これらの結果は、数学的推論タスクに対する、進化的CoT合成のスケーラブルで効果的な手法としての可能性を示している。