ベンチマーク島を超えて—エージェント性AIの代表的な信頼性評価へ

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェント性AIに対する現在の評価実践が断片的で、現実世界の社会技術的シナリオを代表するものではなく、個別の能力のみを測定していると主張する。
  • ホログラフィック・エージェント評価フレームワーク(HAAF)を提案し、タスクタイプ、ツールインタフェース、相互作用ダイナミクス、社会的文脈、リスクレベルを含むシナリオ多様体全体で信頼性を評価する。
  • このフレームワークは、静的認知・ポリシー分析、対話型サンドボックス・シミュレーション、社会倫理的整合性評価、分布認識型代表サンプリングエンジンの4つの要素を組み合わせ、それらをレッドチーム/ブルーチームのサイクルを備えた反復的な信頼性最適化ファクトリーによって統合する。
  • haaf-pilot という参照 GitHub リポジトリには、例示的な実装のためのコードとデータが提供されている。

要約: エージェント型AIシステムが静的な質問応答を超え、オープンエンドな課題解決、ツール補助を受けた作業、そして実世界での多段階のワークフローへと移行するにつれて、その権限の高まりはシステムの乱用や運用上の失敗のリスクをより大きくもたらす。 しかし、現在の評価方法は依然として断片的であり、コーディング、幻覚、ジャイルブレイク耐性、またはツール使用といった個別の能力を、狭く定義された設定で測定している。 我々は、中心的な制約は評価次元の不十分なカバーだけでなく、代表性の原理的な概念の欠如にあると主張する。エージェントの信頼性は、断片化されたベンチマークの集合ではなく、代表的な社会技術的シナリオ分布の上で評価されるべきである。 この目的のために、ホログラフィック・エージェント評価フレームワーク(HAAF)を提案する。これは、タスクタイプ、ツールのインターフェース、相互作用ダイナミクス、社会的文脈、およびリスクレベルを横断するシナリオの多様体上でエージェントの信頼性を特徴づける体系的な評価パラダイムである。フレームワークは、4つの補完的な要素を統合する:(i) 静的な認知とポリシー分析、(ii) インタラクティブなサンドボックスシミュレーション、(iii) 社会倫理的整合性評価、(iv) 分布を意識した代表的サンプリングエンジンで、カバレッジとリスク感度を共同最適化する――特に、従来のベンチマークが体系的に見落としがちな希少だが尾部に重大な影響を及ぼすリスクに対して。 これらの要素は、反復的な「信頼できる最適化ファクトリー」によって結び付けられている。 レッドチームによる探査とブルーチームの強化のサイクルを通じて、このパラダイムは脆弱性を段階的に絞り込み、展開基準を満たすようにする。 それにより、エージェント評価はベンチマークの島々から、代表的で実世界の信頼性へと移行する。 本実装の例示的なコードとデータは、https://github.com/TonyQJH/haaf-pilot にあります。