要旨: 競技プログラミングは、AIに対するコーディング競争において人間がなお強みを持つ最後の領域のひとつであり続けている。現時点での最良のAIシステムであっても、競技プログラミングにおける最良の人間には依然として及ばない。最も新しい最良の結果であるGoogleのGemini~3 Deep Thinkは、ライブ競技の条件下で評価されていないにもかかわらず8位に入った。本研究では、競技プログラミングのためのマルチエージェント強化学習システムであるGrandCodeを導入する。GrandCodeの能力は2つの主要因に起因する: (1) 仮説提案、ソルバ、テスト生成、要約など、さまざまなエージェントモジュールを統括し、それらを事後学習およびオンラインのテスト時RLによって共同で改善すること; (2) エージェントのロールアウトを複数段階で行い、報酬が遅延すること、ならびにエージェント型RLに広く見られる深刻なオフポリシー・ドリフトに対処するために特別に設計されたAgentic GRPOを導入すること。GrandCodeは、競技プログラミングのライブコンテストにおいて、すべての人間参加者を一貫して上回る初めてのAIシステムである。直近の3回のCodeforcesライブ競技、すなわちRound~1087(2026年3月21日)、Round~1088(2026年3月28日)、およびRound~1089(2026年3月29日)において、GrandCodeは3大会すべてで1位を獲得し、伝説的なグランドマスターを含むすべての人間参加者を上回った。GrandCodeは、AIシステムが、最も競争の激しいコーディング課題において、最強の人間プログラマーを超える段階に到達したことを示している。
GrandCode:エージェント型強化学習によって競技プログラミングでグランドマスター級を達成する
arXiv cs.AI / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、ライブのコンテストにおいて既存のAIシステムが依然としてトップの人間のパフォーマンスに届いていない競技プログラミングを対象とした、多エージェント強化学習システムであるGrandCodeを紹介する。




