AI Navigate

GASP: コーディング用大規模言語モデルのためのガイド付き非対称自己プレイ

arXiv cs.LG / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • GASPは、探索を導くために実データのゴールポスト質問を用いる、コーディング用大規模言語モデルにおける自己プレイのグラウンディング機構としてのガイド付き非対称自己プレイを導入します。
  • 訓練中、教師はまず難問の易しいバリアントを生成し、次により難しいバリアントを生成して、ゴールポストとのギャップを徐々に縮めていく。
  • ガイドなしの自己プレイと比較して、GASPは LiveCodeBench における pass@20 で 2.5 パーセンテージポイントの改善を達成し、従来のベースラインが到達できない難しいゴールポスト問題を解くことを可能にする。
  • カリキュラムを純粋な難易度ではなく実際のタスクに基づくものとすることで、従来の非対称自己プレイにおける情報量の少ない難問に対応する。
  • 本論文は、このようなグラウンデッドカリキュラムが、コーディングLLMsのポストトレーニングデータ生成をより効率的にし、難問分布の扱いを改善できると示唆している。

要約: 非対称自己対話は、事後訓練後の大規模言語モデルに対して有望なパラダイムとして浮上しており、ここでは教師が生徒の学習可能性の限界付近で解くべき問題を継続的に生成します。これらの方法は、人間データを一切用いずにオープンエンドなデータ生成を約束する一方で、解くのが難しいすべての問題が、モデル全体の能力向上にとって興味深いまたは有益であるとは限らないのです。現在の非対称自己対話法は目的に依存せず、現実的な根拠を欠いています。Guided Asymmetric Self-Play(GASP)を提案します。ここでの根拠づけは、現実データのゴールポスト質問によって提供され、これらはモデルに対して難しい探索課題を課すよう特定されます。自己対話の間、教師はまず難問のより易しいバリアントを生成し、次にその易しい問のさらに難しいバリアントを生成します。訓練を通じてゴールポストとのギャップを徐々に縮めることを目的とします。これにより、誘導なしの非対称自己対話に比べて LiveCodeBench(LCB)での pass@20 を2.5%向上させ、教師によって構築されたカリキュラムを通じて、すべてのベースラインにとっても手の届かない難しいゴールポストの質問を解くことに成功します。