π-Play：外部データなしで特権的自己蒸留によるマルチエージェント自己対戦

arXiv cs.LG / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Question Construction Path（QCP）という中間アーティファクトを用いることで、疎な報酬による学習を密なフィードバックの学習ループへと変換する、マルチエージェント自己対戦フレームワーク「π-Play」を提案する。
π-Playでは、試験官（examiner）がタスクとQCPの両方を生成し、教師モデルがQCPを特権的コンテキストとして消費することで、外部データやラベル付きデータを一切使わずに、自己蒸留によって生徒（student）へ密な教師信号を与える。
核となる洞察は、自己対戦によって自然にQCPが得られ、低コストで生成でき、タスク間でもスケーラブルな高品質の特権情報として機能する点にある。
実験では、データなしのπ-Playが完全に教師ありの探索エージェントを上回り、従来の自己対戦と比べて進化的効率が約2〜3倍向上することが報告されている。
本研究は、疎な報酬、弱いクレジット割当、ラベル付きデータの入手可能性の制約といった、深層探索エージェントの中核的な学習課題に対し、教師信号の与え方を再構成することで取り組む。

要旨: 深層探索エージェントは、複雑な情報探索タスクに取り組むための有望なパラダイムとして登場しているが、その学習は、報酬が疎であること、クレジット割り当てが弱いこと、さらにラベル付きデータが限られていることにより、依然として困難である。自己対戦（self-play）はデータ依存を減らすためのスケーラブルな経路を提供するが、従来の自己対戦は、疎な結果報酬を通じて生徒を最適化するだけにとどまり、学習効率が低い。本研究では、自己対戦がタスク生成の過程で自然に質問構成パス（QCP）を生成することを観察する。QCPは逆方向の解法プロセスを捉える中間成果物である。これにより、自己蒸留（self-distillation）における新たな特権情報の源泉が明らかになる。すなわち、自己対戦それ自体が、人間のフィードバックやキュレーションされた特権情報に頼ることなく、低コストかつスケーラブルな方法で教師モデルに対して高品質な特権付き文脈を提供し得るということである。この洞察を活用して、特権情報自己対戦（Privileged Information Self-Play）（ $pi-Play）を提案する。これは多エージェントによる自己進化の枠組みである。$ pi-Play $では、試験官（examiner）がタスクとその QCP を生成し、教師モデルは QCP を特権付き文脈として利用して、自己蒸留により生徒を高密度に教師付けする。この設計により、従来の疎報酬自己対戦を、高密度フィードバックによる自己進化ループへと変換する。大規模な実験の結果、データなしの$ pi-Play $は完全に教師ありの探索エージェントを上回り、従来の自己対戦に比べて進化効率を 2-3$ imes$ 改善することが示された。