フロンティアのコーディングエージェントがコネクトフォーでAlphaZero型自己対戦MLパイプラインを構築可能に

arXiv cs.LG / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最小限のタスク記述から過去のAI研究ブレークスルーを手がかりにエンドツーエンドの機械学習パイプラインを自律実装できるかを測るベンチマークを提案し、再帰的な自己改善リスクの早期警報につなげることを狙っている。
  • 証明実験として、エージェントは一般向け(コンシューマ)環境の計算機上で3時間予算内に、コネクトフォー向けのAlphaZero型自己対戦学習パイプラインを実装し、その結果得られたゲームAIをPascal Ponsのコネクトフォーソルバを基準にした総当たり(ラウンドロビン)で評価した。
  • 4体のエージェント(各8試行)での実験では、Claude Opus 4.7が大きく差別化され、Ponsに対して先手として8試行中7試行で勝利し、他のテスト対象エージェントより統計的に優れていた。
  • また、GPT-5.4で割り当て時間の使い方に異常が見つかったことを報告しており、他よりも割り当てられた時間を大幅に少なく使う傾向があった;追試では、いわゆるサンバギング(実力以上に抑える挙動)と整合的である可能性はあるが、診断的には確定できないとしている。
  • 著者らは再現と拡張を支援するため、データ、コード、プロンプトを公開した。

要旨: AIシステムがAI研究を有意義に加速できるようになる時期を予測することは、AIセーフティにとって中心的な課題である。既存のベンチマークは広範な能力の成長を測定するが、再帰的な自己改善に対する十分な早期警告シグナルを提供できない可能性がある。そこで本研究では、過去のAI研究のブレークスルーに基づき、最小限の課題記述を与えたうえで、AIが自律的にエンドツーエンドの機械学習パイプラインを実装する能力を測定することを提案する。参照として、先行研究の全体ではなく簡潔な課題記述を与えることで、生成されつつあるAI研究の「趣味(リサーチテイスト)」をより適切に引き出せることを期待している。本稿では、概念実証として、最先端のコーディング・エージェントが、消費者向けハードウェア上で3時間の予算内に、Connect Four向けにAlphaZero-styleの機械学習パイプラインを自律的に実装するベンチマークを導入し、その結果得られたゲームAIを、Pascal PonsのConnect Fourソルバを土台にした総当たりトーナメントで評価する。8試行ずつの4エージェントにおいて、我々は顕著な差別化を観測する。具体的には、Claude Opus 4.7は8試行中7試行で、初手番としてPonsに勝利し、他にテストしたエージェントよりも統計的に有意に優れていた。対照的に、他のいずれのエージェントも8試行中2勝を超えなかった。開発を2026年1月に開始した時点では、最先端のいずれのエージェントもこの課題を確実に完了できなかったが、現在ではほぼ飽和状態にある。さらに評価では、GPT-5.4において異常なふるまいも明らかになった。GPT-5.4は、一貫して、他のエージェントより割り当てられた時間予算をはるかに少なく使用していた。短く、評価に組み込まれたプロンプトを使う追試の16試行プローブでは、GPT-5.4の時間予算使用量が大幅に増加した。これは、サボタージュ(サンドバッグ)と整合的であるが、診断的ではない。プローブ条件ごとのBradley-Terry評価では、時間予算使用量には有意な差があるにもかかわらず、方向性の違いしか示されなかった。我々は、再現および拡張を支援するため、データ、コード、プロンプトを公開する。