複数の「思考者」から考えることを学ぶ

arXiv stat.ML / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、正しいものの系統的に異なり得る推論や解答のトレースを複数の「思考者」がChain-of-Thought(CoT)として提供する場合に、学習がどのように振る舞うかを研究する。
  • 著者らは、単一の思考者からのCoTなら学習が容易でも、CoTなしで最終結果の監督だけを用いると学習が難しくなる関数クラスが存在することを示す。
  • 暗号学的仮定の下で、受動的なデータ収集の設定では、2人、あるいは少数の異なる思考者からCoTが与えられても学習が困難になり得ることを証明する。
  • 一方で、目標精度εに依存しない(的確性に全く依存しない)少量のCoTデータを各思考者から集めることで学習できる、計算効率の高い能動学習アルゴリズムも提案している。
  • 総じて本研究は、多数の思考者によるCoT監督に関する「負の結果(仮定に基づく困難性)」と「正の結果(能動学習アルゴリズム)」の両方を提示している。

Abstract

私たちは、複数の思考者からのChain-of-Thought(CoT)による監督(supervision)を用いた学習を研究します。そこでは、すべての思考者が正しいものの、系統的に異なる可能性のある解を提供します。例えば、異なる思考者が書いた数学問題に対する逐次(step-by-step)解法や、同じ問題を解く異なるプログラムによる逐次実行トレースです。 私たちは、単一の思考者からのCoT監督を用いれば計算的に学習が容易であるクラスを考えますが、CoTなしの(すなわちCoTによらず)終結果のみの監督だけでは学習が難しいもの、すなわち(Joshi et al. 2025)を対象にします。暗号学的仮定の下では、受動的なデータ収集(passive data-collection)設定において、2人、あるいはごく少数の異なる思考者によるCoT監督からの学習が困難になり得ることを示します。 一方で、ターゲット精度varepsilonに完全に依存しない少量のCoTデータを、思考者ごとに用いて学習する、計算的に効率的な汎用の能動学習アルゴリズムを提示します。その際、必要となる思考者の数はlog \frac{1}{\varepsilon}\log \log \frac{1}{\varepsilon}のオーダーで増加し、さらに受動的な終結果データとしては\frac{1}{\varepsilon}\cdot poly\log\frac{1}{\varepsilon}のオーダーで十分です。