AIRA_2：AIリサーチエージェントにおけるボトルネックの克服

arXiv cs.AI / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、AIリサーチエージェントにおける3つの主要なボトルネックを特定する。すなわち、単一GPUの同期実行によってスループットが制限されること、長いホライズンにわたるバリデーションベースの選択によって生じる一般化ギャップ、そして固定されたシングルターンのLLMオペレータによる上限効果である。
これらに対し、AIRA_2は3つのアーキテクチャ変更を提案する。近線形のスループット向上を実現するための非同期・マルチGPUワーカープール、より信頼できる評価シグナルのためのHidden Consistent Evaluationプロトコル、そして行動範囲を動的に絞り込み相互にデバッグできるReActエージェントである。
MLE-bench-30において、AIRA_2は24時間で平均パーセンタイル順位71.8%まで改善し、72時間では76.0%に上昇する。これは従来最高の69.9%を上回る。
アブレーション結果から、3つの構成要素はすべて必須であることが示される。また、従来の「過学習」への示唆は、本当の記憶（学習データの丸暗記）ではなく評価ノイズによるものだと説明される。