ClawArena: 進化する情報環境におけるAIエージェントのベンチマーク

arXiv cs.LG / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

ClawArenaは、新たに提案されるベンチマークであり、情報環境が変化して異種の情報源間で矛盾が生じる状況でも、AIエージェントが正しい信念を維持しなければならないことを検証する。
ベンチマークのシナリオには、隠れた真の情報（hidden ground truth）が含まれており、マルチチャネルのセッション、ワークスペースのファイル、段階的な更新を通じて、ノイズのある不完全で、ときに相互に矛盾する痕跡にエージェントをさらす。
評価対象は、結びついた3つの能力――多元情報源間の対立（コンフリクト）推論、動的な信念の改訂、暗黙的なパーソナライゼーション――であり、14カテゴリの質問タクソノミーとして整理される。
2種類の回答形式（複数選択の集合選択と、シェルベースの実行可能チェック）を用いて、推論の質とワークスペースへの根拠づけの両方を評価する。
5つのエージェントフレームワークと5つの言語モデルにまたがる初期実験では、モデルの能力とフレームワークの設計の両方がパフォーマンスに大きく影響すること、また「更新があること」だけでなく、更新設計戦略に応じて信念改訂の難しさが決まることが示され、リリースには8つの専門領域にまたがる64のシナリオと、GitHub上のコードが提供される。

Black Hat Asia

AI Business

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

ClawArena: 進化する情報環境におけるAIエージェントのベンチマーク

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別