GASP: コーディング用大規模言語モデルのためのガイド付き非対称自己プレイ

arXiv cs.LG / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

GASPは、探索を導くために実データのゴールポスト質問を用いる、コーディング用大規模言語モデルにおける自己プレイのグラウンディング機構としてのガイド付き非対称自己プレイを導入します。
訓練中、教師はまず難問の易しいバリアントを生成し、次により難しいバリアントを生成して、ゴールポストとのギャップを徐々に縮めていく。
ガイドなしの自己プレイと比較して、GASPは LiveCodeBench における pass@20 で 2.5 パーセンテージポイントの改善を達成し、従来のベースラインが到達できない難しいゴールポスト問題を解くことを可能にする。
カリキュラムを純粋な難易度ではなく実際のタスクに基づくものとすることで、従来の非対称自己プレイにおける情報量の少ない難問に対応する。
本論文は、このようなグラウンデッドカリキュラムが、コーディングLLMsのポストトレーニングデータ生成をより効率的にし、難問分布の扱いを改善できると示唆している。

要約: 非対称自己対話は、事後訓練後の大規模言語モデルに対して有望なパラダイムとして浮上しており、ここでは教師が生徒の学習可能性の限界付近で解くべき問題を継続的に生成します。これらの方法は、人間データを一切用いずにオープンエンドなデータ生成を約束する一方で、解くのが難しいすべての問題が、モデル全体の能力向上にとって興味深いまたは有益であるとは限らないのです。現在の非対称自己対話法は目的に依存せず、現実的な根拠を欠いています。Guided Asymmetric Self-Play（GASP）を提案します。ここでの根拠づけは、現実データのゴールポスト質問によって提供され、これらはモデルに対して難しい探索課題を課すよう特定されます。自己対話の間、教師はまず難問のより易しいバリアントを生成し、次にその易しい問のさらに難しいバリアントを生成します。訓練を通じてゴールポストとのギャップを徐々に縮めることを目的とします。これにより、誘導なしの非対称自己対話に比べて LiveCodeBench（LCB）での pass@20 を2.5%向上させ、教師によって構築されたカリキュラムを通じて、すべてのベースラインにとっても手の届かない難しいゴールポストの質問を解くことに成功します。

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

3行日記 AIマニュアルはバタフライ入門

note

GASP: コーディング用大規模言語モデルのためのガイド付き非対称自己プレイ

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌