AEC-Bench:建築・エンジニアリング・建設分野におけるエージェント型システムのためのマルチモーダルベンチマーク

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • AEC-Benchを、建築・エンジニアリング・建設(AEC)領域の実世界タスク向けに設計したマルチモーダルなベンチマークとして提案しています。
  • 図面理解、複数シート間の推論、建設プロジェクト全体の調整といった「エージェント的」能力を評価するタスク群を定義しています。
  • データセットの分類体系、評価プロトコル、そして複数のドメイン特化ファウンデーションモデル環境(harness)でのベースライン結果を報告しています。
  • AEC-Benchの分析により、Claude CodeやCodexのようなベースハーネス内で一貫して性能を押し上げるツール設計・ハーネス設計の手法を特定したとしています。
  • ベンチマークのデータセット、エージェント用ハーネス、評価コードをApache 2ライセンスで公開し、再現可能性を高めています。