計算量を一部に抑えてカスタム推論エージェントを構築する方法

VentureBeat / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 推論AIモデルの学習は、ほとんどの企業チームにとってリソース負担が大きく、費用のかかる知識蒸留と、信号が乏しい強化学習の間でトレードオフを迫られがちだ。
  • JD.comと複数の研究機関の研究者は、RLSD(Reinforcement Learning with Verifiable Rewards with Self-Distillation)として、検証可能な報酬による強化学習の追跡と、自己蒸留のトークンレベルのきめ細かなフィードバックを組み合わせる手法を提案している。
  • この記事では、RLVRのような従来手法が「信号密度」の問題を抱えることを説明しており、長い推論トレースに単一の二値報酬しか与えられないため、中間のどの手順が成否に効いたのか学べない。
  • 実験では、RLSDで学習したモデルが古典的蒸留や標準的な強化学習より良い性能を示すとされ、特定の業務ロジックに合わせたカスタム推論モデル構築の技術的・財務的ハードルを下げられる可能性がある。
  • またOPD(On-Policy Distillation)は学習中に巨大な教師モデルを常駐させる必要があり、GPU負荷が実質倍増し、さらに語彙構造の制約も強いため、より計算効率の高いアプローチとしてRLSDが動機付けられている。

AIの推論モデルを学習させるには、多くのエンタープライズチームが持ち合わせていないリソースが必要です。エンジニアリングチームはしばしば、大規模で高価なモデルから知識を蒸留するか、スパースなフィードバックを提供する強化学習手法に頼るかの二択を迫られます。

JD.comの研究者といくつかの学術機関は最近、このジレンマを回避する新しい学習パラダイムを導入しました。その手法は自己蒸留を伴う検証可能な報酬による強化学習(RLSD)と呼ばれ、強化学習の信頼できる性能追跡と、自己蒸留のきめ細かなフィードバックを組み合わせます。 

実験の結果、RLSDで学習したモデルは、従来の蒸留および強化学習アルゴリズムで構築されたモデルよりも優れた性能を示しました。エンタープライズチームにとって、このアプローチは、特定のビジネスロジックに合わせたカスタム推論モデルを構築するための技術的・財務的なハードルを下げます。

推論モデルを学習させる際の問題

推論モデルを学習する標準的な方法は検証可能な報酬による強化学習(RLVR)です。このパラダイムでは、モデルは環境から得られる最終的な結果に導かれて試行錯誤を通じて学習します。自動の検証器が、モデルの答えが正しいか誤りかをチェックし、0または1のような二値の報酬を与えます。

RLVRは、スパースで一様なフィードバックに悩まされます。論文の共著者であるChenxu YangはVentureBeatに対し、「『標準GRPO』には信号密度の問題があります。」「数千トークンに及ぶ推論の痕跡に対して二値の報酬が1つ与えられ、その痕跡の中の各トークンは、重要な論理ステップなのかどうでもいいフレーズなのかに関係なく、同じ信用が付与されます。」その結果、モデルはどの途中ステップが成功や失敗につながったのかを学べません。

オンポリシー蒸留(OPD)は別のアプローチを取ります。最終結果を待つのではなく、開発者は小さな学生モデルと、より大きく能力の高い教師モデルを組み合わせます。各学習例において、学生は自分の応答を教師の応答とトークンごとに比較します。これにより、学生は推論の連鎖全体と応答生成プロセスについて、きめ細かなフィードバックを得ることができます。

学生に加えて、学習プロセスの全期間にわたり別の大規模な教師モデルを動かし、運用することは、計算面での大きなオーバーヘッドを招きます。「訓練の間ずっと大きな教師モデルを常駐させる必要があり、GPU使用量がだいたい2倍になります」とYangは述べました。さらに、教師モデルと学生モデルはまったく同じ語彙構造を共有する必要がありますが、Yangによれば「これは黙っているうちに、エンタープライズが実際に運用しているほとんどのクロスアーキテクチャ、クロスモダリティ、あるいは多言語のセットアップを排除してしまう」からです。

自己蒸留の約束と失敗

オンポリシー自己蒸留(OPSD)は、上記2つの手法の欠点を克服するために設計された解決策として登場しました。OPSDでは、同じモデルが学生と教師の両方の役割を果たします。

学習中、学生には標準的なプロンプトが与えられ、教師には、検証済みの段階的な答えの鍵などの特権情報が与えられます。この十分に情報を得た教師版モデルが、学生版を評価し、学生が標準プロンプトだけを使って問題を解こうと試みる間、トークンごとのフィードバックを提供します。

OPSDは、エンタープライズの予算にとって理想的な折衷案のように見えます。OPDの持つ、きめ細かな段階的ガイダンスを提供します。外部の教師モデルを用意する必要がないため、RLVRの高い計算効率と低コストで動作でき、教師に対する追加のフォワードパスだけが追加で必要になります。

しかし、研究者らはOPSDが「特権情報のリーク」と呼ばれる現象に悩まされることを見つけました。

「目的関数は構造的に不適切です」とYangは言いました。「埋めようのない相互情報量のギャップがあって、学生は決して埋めることができません……。自己蒸留が分布合わせとして設定されると、学生は特権コンテキストのもとで教師の出力分布全体を模倣するよう求められます。」

教師は隠された答えの鍵に基づいて学生を評価するため、学習目的は学生モデルに、根底にある推論ロジックではなく、教師のまさにその言い回しや手順を学ばせるよう強制します。その結果、学生モデルは、実運用ではアクセスできないはずの不可視の解決策への参照を、幻覚として出し始めます。

実際には、OPSDモデルは学習初期において急激な性能のスパイクを示しますが、その後、推論能力はすぐに頭打ちとなり、時間の経過とともに徐々に低下していきます。

RLSDによる、方向と大きさの切り離し

RLSDの研究チームは、モデルがパラメータを更新する際に支配する信号には、本質的に非対称な要件があることに気づきました。更新の方向を決める信号(つまり、ある振る舞いを強化するのか罰するのか)については、スパースでもよいが、絶対に信頼できなければならないと特定しました。誤った方向へモデルを向けてしまうと、推論ポリシーが損なわれるからです。

一方で、更新の大きさを決める信号(つまり、特定のステップに相対的にどれだけの信用や非難を与えるべきか)は、きめ細かな段階的な修正を可能にするため、非常に高密度であることが有利です。

RLSDはこの原理に基づき、更新の方向と更新の大きさを切り離します。このフレームワークでは、RLVRの検証可能な環境フィードバックが、学習の方向を厳密に決定します。最終的な答えが客観的に正しい場合にのみ、モデルは全体としての強化を受け取ります。

自己教師は、「モデルに何を生成させるべきか」を指示する力を奪われます。その代わり、教師のトークンごとの評価は、更新の大きさを決めるために再利用されます。すなわち、モデルの推論経路に含まれる各ステップへ、合計の信用または非難を単純に配分するだけです。

これにより、モデルの学習の仕方は従来のOPSDパラダイムから変わります。標準的なOPSDでは、学習目的が行動クローンのように働き、モデルは教師の正確な文言や言い回しを直接コピーすることを強制されます。その結果、学生は幻覚を起こし、自分が持っていないデータへの参照を漏らします。

隠された解決策をコピーすることを強制する代わりに、RLSDは、トークンごとの信用情報という自然で、ほぼ追加コストゼロの情報源を提供します。

「直感としては、私たちは教師のようにモデルに推論させているのではありません」とYangは言いました。「私たちは、モデルが選んだその経路に沿って、実際に仕事をしていたのがモデル自身のどのトークンだったのかを伝えます。探索分布はそのまま維持されます。信用配分だけがより鋭くなります。」

特定の演繹が正しい結果を強く支持するなら、それにはより高いスコアが与えられます。単なる役に立たない埋め草の単語なら、それには基準のスコアが与えられます。RLSDは、複雑な補助報酬ネットワークを訓練する必要や、段階的データを手作業で注釈付けする必要、巨大な外部教師モデルを維持する必要をなくします。

RLSDを試す

RLSDを検証するため、研究者らはオープンウェイトのQwen3-VL-8Bの視覚言語モデルを学習させ、いくつかの視覚推論ベンチマークで評価しました。これらには、大学レベルの複数分野にわたる問題のためのMMMU、MathVista、MathVision、WeMath、そして現在のフロンティアモデルにとってほぼ不可能であるよう明示的に設計されたストレステストベンチマークであるZeroBenchが含まれます。

彼らはRLSDモデルを、ポストトレーニングなしのベースモデル、GRPOアルゴリズムによる標準的なRLVR、標準的なOPSD、そして2つのハイブリッドな組み合わせと比較しました。

RLSDは他のすべての手法を大きく上回り、5つのすべてのベンチマークで平均精度56.18%という最高値を達成しました。ベースモデルに対しては4.69%上回り、標準的なRLVRに対しては2.32%上回りました。伸びが最も顕著だったのは複雑な数学的推論タスクで、MathVisionベンチマークではRLSDが標準RLVRを3.91%上回りました。

精度の向上にとどまらず、このフレームワークは大幅な効率改善も提供します。Yang氏は次のように述べています。「具体的には、200トレーニングステップの時点でのRLSDは、400ステップで学習したGRPOにすでに勝っています。つまり、おおよそ2倍の収束スピード向上です。」「コスト面では、通常のGRPOパイプラインに追加で必要になるオーバーヘッドは、教師のロジットを取得するために応答ごとにもう1回フォワードパスを行うことだけです。ロールアウト生成と比べると……それは基本的にタダみたいなものです。」

情報漏洩によって性能が一度急上昇した後に完全に崩れたOPSDとは異なり、RLSDは長期的な学習の安定性を維持し、標準的な手法よりも高い性能の上限に収束しました。

定性的な結果は、モデルが学習挙動をどのように変えるかを示しています。たとえば複雑な視覚カウントのタスクでは、標準RLVRは最終的に正解となる答えを見て、その段落全体の推論トークンに同じ報酬を与えます。一方でRLSDは、問題を解いた特定の数学的な減算ステップに対して報酬を「手術のように」適用し、さらに「画像を見て、私は……」のような汎用的な無駄な文(フレーズ)の重みを積極的に下げます。

別の例では、モデルが棒グラフに基づいて誤った数学的導出を行いました。応答全体を失敗としてラベル付けする代わりに、RLSDは、モデルがグラフから関係性を誤読したまさにその一点に最も重いペナルティを集中させました。論理的な準備の残りの部分については中立のままで、初期の枠組みが妥当であったことを認識しました。

これは、ゴチャゴチャした現実の企業ユースケースにおいて特に重要です。50ページの四半期決算報告書を分析する際にモデルが間違えたとしても、開発者はモデルに分析のための枠組み全体を忘れさせてしまうのは望みません。必要なのは、誤った前提だけを直すことです。RLSDは、どの論理的な飛躍が価値があり、どれが欠陥があるのかを、トークン単位で正確に学習させます。RLSDはモデル自身を流用してこれを行うため、トレーニングコストを現実的に保ちながら、きめ細かな推論能力をモデルに付与できます。

企業が始める方法

データエンジニアやAIオーケストレーションチームにとって、RLSDの統合は簡単ですが、適切なセットアップが必要です。最も重要な要件は、コードコンパイラ、数学チェッカー、SQLの実行、スキーマバリデータのように検証可能な報酬シグナルです。「検証可能な報酬のないタスク(オープンエンドの対話、ブランドボイスの文章作成)は、嗜好(プリファレンス)ベースのパイプラインに属します」とYang氏は述べています。

ただし、RLSDは必要とする特権情報(privileged information)に関して非常に柔軟です。OPSDは構造的に完全な中間推論トレースを要求し、そのため企業はアノテータに支払うか、フロンティアモデルから蒸留するかのいずれかを迫られますが、RLSDにはそれがありません。

「もし完全に検証された推論トレースがあるなら、素晴らしい。RLSDはそれを使います」とYang氏は言いました。「手元にあるのが正解の最終回答だけであっても、それでうまくいきます……OPSDにはこの柔軟性がありません。」

veRLやEasyR1のような既存のオープンソースのマルチモーダルRLフレームワークにこの手法を統合するのは、非常に軽量です。Yang氏によれば、フレームワークの書き換えは不要で、標準的なスタックにそのまま組み込めます。コード差し替えは、GRPOの目的関数を調整し、教師を生徒に同期させるために、単に数十行を変更するだけです。

先を見据えると、RLSDは企業が既存の社内資産を最大限活用するための強力な方法を提供します。

「企業が社内の境界内で保持している(コンプライアンスマニュアル、社内ドキュメント、過去のチケット、検証済みのコード断片)ような独自データは、本質的に“タダ”の特権情報です」とYang氏は結論づけました。「RLSDは、この種のデータを特権コンテキストとしてそのまま投入できるため、外部の教師を必要とせず、ネットワークの外へ何も送らずに、小型モデルの学習シグナルを鋭くできます。」