AIRA_2:AIリサーチエージェントにおけるボトルネックの克服
arXiv cs.AI / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、AIリサーチエージェントにおける3つの主要なボトルネックを特定する。すなわち、単一GPUの同期実行によってスループットが制限されること、長いホライズンにわたるバリデーションベースの選択によって生じる一般化ギャップ、そして固定されたシングルターンのLLMオペレータによる上限効果である。
- これらに対し、AIRA_2は3つのアーキテクチャ変更を提案する。近線形のスループット向上を実現するための非同期・マルチGPUワーカープール、より信頼できる評価シグナルのためのHidden Consistent Evaluationプロトコル、そして行動範囲を動的に絞り込み相互にデバッグできるReActエージェントである。
- MLE-bench-30において、AIRA_2は24時間で平均パーセンタイル順位71.8%まで改善し、72時間では76.0%に上昇する。これは従来最高の69.9%を上回る。
- アブレーション結果から、3つの構成要素はすべて必須であることが示される。また、従来の「過学習」への示唆は、本当の記憶(学習データの丸暗記)ではなく評価ノイズによるものだと説明される。




