ClawArena: 進化する情報環境におけるAIエージェントのベンチマーク

arXiv cs.LG / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ClawArenaは、新たに提案されるベンチマークであり、情報環境が変化して異種の情報源間で矛盾が生じる状況でも、AIエージェントが正しい信念を維持しなければならないことを検証する。
  • ベンチマークのシナリオには、隠れた真の情報(hidden ground truth)が含まれており、マルチチャネルのセッション、ワークスペースのファイル、段階的な更新を通じて、ノイズのある不完全で、ときに相互に矛盾する痕跡にエージェントをさらす。
  • 評価対象は、結びついた3つの能力――多元情報源間の対立(コンフリクト)推論、動的な信念の改訂、暗黙的なパーソナライゼーション――であり、14カテゴリの質問タクソノミーとして整理される。
  • 2種類の回答形式(複数選択の集合選択と、シェルベースの実行可能チェック)を用いて、推論の質とワークスペースへの根拠づけの両方を評価する。
  • 5つのエージェントフレームワークと5つの言語モデルにまたがる初期実験では、モデルの能力とフレームワークの設計の両方がパフォーマンスに大きく影響すること、また「更新があること」だけでなく、更新設計戦略に応じて信念改訂の難しさが決まることが示され、リリースには8つの専門領域にまたがる64のシナリオと、GitHub上のコードが提供される。