ML研究のための自律的な長期ホライズン・エンジニアリングに向けて

arXiv cs.CL / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長期ホライズンのML研究におけるエンジニアリングは、短期の自律性よりも難しいと主張している。なぜなら、エージェントは、タスク理解、環境設定、実装、実験、デバッグといった工程を、数時間または数日というスケールで一貫した進捗として維持する必要があるからだ。
  • 階層的なオーケストレーションと、権限スコープ付きの「File-as-Bus」ワークスペースを用いた、構造化されたオーケストレーションに加えて、耐久性のある状態継続性を中心に設計された自律システム「AiScientist」を提案する。
  • このアプローチは、会話による引き継ぎに主として依存するのではなく、分析、計画、コード、実験の証拠といった永続的な成果物に基づいて専門エージェントを再び根付かせることを重視し、「厚い状態に対する薄い制御」を目指している。
  • 2つのベンチマークでの実験により、AiScientistは、最良のマッチしたベースラインに対してPaperBenchで平均10.54ポイント改善し、MLE-Bench Liteでは81.82 Any Medal%を達成することが示された。
  • アブレーション結果は、「File-as-Bus」プロトコルが主要な性能要因であることを示しており、それを除去すると顕著なスコア低下が見られる(PaperBench −6.41、MLE-Bench Lite −31.82)。これにより、長期ホライズンのML研究を、システムの協調(coordination)問題として位置づける観点が提示される。

概要: 自律的なAI研究は急速に進展してきましたが、長期ホライズンのML研究のエンジニアリングは依然として難しいままです。エージェントは、タスク理解、環境セットアップ、実装、実験、デバッグを、数時間または数日という長い期間にわたって、首尾一貫した進捗として維持し続ける必要があります。私たちは、シンプルな原理に基づいて構築された、ML研究向けの自律的な長期ホライズン・エンジニアリングのためのシステムであるAiScientistを提案します。その原理とは、「強い長期性能には、構造化されたオーケストレーションと、耐久性のある状態の連続性の両方が必要である」というものです。そこでAiScientistは、階層的オーケストレーションと、権限スコープ付きのFile-as-Bus(ファイルをバスとして扱う)ワークスペースを組み合わせます。トップレベルのOrchestrator(オーケストレータ)は、簡潔な要約とワークスペースマップによって段階(ステージ)単位の制御を維持します。一方で、専門エージェントは、会話による引き継ぎに主として依存するのではなく、分析、計画、コード、実験の証拠といった、耐久性のある成果物に対して繰り返し再根拠付け(re-grounding)します。これにより、「厚い状態」に対して「薄い制御」しか行えない状態を避けます。2つの補完的なベンチマークにおいて、AiScientistは、最も適合したベースラインに対して平均でPaperBenchスコアを10.54ポイント向上させ、MLE-Bench Liteでは81.82 Any Medal%を達成します。アブレーション研究ではさらに、File-as-Busプロトコルが性能の主要な駆動要因であることが示されました。これを取り除くとPaperBenchが6.41ポイント、MLE-Bench Liteが31.82ポイントそれぞれ低下します。これらの結果は、長期ホライズンのML研究エンジニアリングが、純粋に局所的な推論問題というよりも、耐久性のあるプロジェクト状態の上で専門的な作業を調整する、システム問題であることを示唆しています。