要約: AI 主導の文書理解と処理ツールが現実世界のアプリケーションでますます普及するにつれ、厳密な評価基準の必要性が高まっている。既存のベンチマークや評価はしばしば分離した能力や単純化されたシナリオに焦点を当て、現実的な設定で必要とされるエンドツーエンドのタスク効果を捉えきれていない。このギャップを埋めるため、我々は AIDABench を導入する。これはエンドツーエンドの方法で複雑なデータ分析タスクを評価する包括的なベンチマークである。AIDABench は、三つの核となる能力次元(質問応答、データビジュアライゼーション、ファイル生成)にまたがる 600 以上の多様な文書分析タスクを包含している。これらのタスクは、スプレッドシート、データベース、財務報告、運用記録などの異種データタイプを含む現実的なシナリオに基づいており、さまざまな業界と職務機能における分析要求を反映している。特筆すべきは、AIDABench のタスクは十分に難度が高く、AI ツールの支援を受けても人間の専門家でさえ質問1問につき1~2時間を要するため、このベンチマークの難易度と現実世界の複雑さを強調している。我々は、AIDABench 上で 11 の最先端モデルを評価しており、これには専有系(例: Claude Sonnet 4.5、Gemini 3 Pro Preview)とオープンソース系(例: Qwen3-Max-2026-01-23-Thinking)のファミリが含まれる。結果は、複雑で現実世界のデータ分析タスクは現在の AI 系の大きな課題のままであり、最も性能の良いモデルでも1問正解率がわずか 59.43% にとどまることを示している。我々は、各能力次元ごとに失敗モードを詳しく分析し、今後の研究の主要な課題を特定した。AIDABench は、エンタープライズの調達、ツール選択、モデル最適化のための原則的な参考資料を提供し、https://github.com/MichaelYang-lyx/AIDABench で公開されている。
AIDABench:AIデータ分析ベンチマーク
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- AIDABenchは、質問応答、データ可視化、ファイル生成の3つの能力にまたがる600件超の文書分析タスクを含む、包括的なエンドツーエンドのベンチマークを導入します。
- タスクには、スプレッドシート、データベース、財務報告、業務記録などの現実的で多様なデータが含まれ、さまざまな産業分野や職務機能にまたがります。
- 11モデル(独自開発とオープンソースを含む)を対象とした評価では、最良のPass@1が59.43%であることが示され、実世界のAIデータ分析能力にはまだギャップがあることが浮き彫りになります。
- 本論文は失敗モードの分析を提供し、主要な研究課題を特定し、AIDABenchを企業の調達とモデル最適化のリファレンスとして位置づけ、ベンチマークはGitHubで公開されています。




