Abstract
私たちは、複数の思考者からのChain-of-Thought(CoT)による監督(supervision)を用いた学習を研究します。そこでは、すべての思考者が正しいものの、系統的に異なる可能性のある解を提供します。例えば、異なる思考者が書いた数学問題に対する逐次(step-by-step)解法や、同じ問題を解く異なるプログラムによる逐次実行トレースです。
私たちは、単一の思考者からのCoT監督を用いれば計算的に学習が容易であるクラスを考えますが、CoTなしの(すなわちCoTによらず)終結果のみの監督だけでは学習が難しいもの、すなわち(Joshi et al. 2025)を対象にします。暗号学的仮定の下では、受動的なデータ収集(passive data-collection)設定において、2人、あるいはごく少数の異なる思考者によるCoT監督からの学習が困難になり得ることを示します。
一方で、ターゲット精度varepsilonに完全に依存しない少量のCoTデータを、思考者ごとに用いて学習する、計算的に効率的な汎用の能動学習アルゴリズムを提示します。その際、必要となる思考者の数はlog \frac{1}{\varepsilon}\log \log \frac{1}{\varepsilon}のオーダーで増加し、さらに受動的な終結果データとしては\frac{1}{\varepsilon}\cdot poly\log\frac{1}{\varepsilon}のオーダーで十分です。