要旨: AI-for-Science(AI4Science)は、機械学習モデルを予測、シミュレーション、仮説生成のワークフローに埋め込むことで、分野をまたいだ科学的発見をますます変革しています。しかし、これらのモデルの有効性は根本的に、AIの準備状況(AI-readiness)という科学データの特性によって制約されますが、そのためのスケーラブルで体系的な評価メカニズムは現在存在しません。本研究では、多様な科学データのためのスケーラブルなAI準備状況評価を行う新しいエージェント型システムSciHorizon-DataEVAを提案します。評価基準のレベルでは、AI準備状況を4つの相補的な次元に整理するSci-TQA2の原則を導入します。すなわち、ガバナンスの信頼性、データ品質、AI適合性、科学的適応性です。それぞれの次元は、きめ細かく実行可能な評価を可能にする、測定可能な原子的要素へと分解されます。これらの原則を大規模に運用するために、有向の循環的ワークフローによって統括される階層型マルチエージェント評価アプローチであるSci-TQA2-Evalを開発します。私たちのSci-TQA2-Evalは、軽量なデータセットのプロファイリング、適用可能性に応じたメトリクスの活性化、そしてドメイン上の制約とデータセット論文のシグナルに基づく知識強化型の計画を組み合わせることで、データセットに即した評価仕様を動的に構築します。これらの仕様は、検証と自己修正を内蔵した適応的でツール中心の評価メカニズムを通じて実行され、多様な科学データに対してスケーラブルかつ信頼性の高い評価を可能にします。複数の分野にまたがる科学データセットに対する大規模な実験により、原則に基づくAI準備状況評価におけるSciHorizon-DataEVAの有効性と汎用性が示されます。
SciHorizon-DataEVA:異種の科学データに対するAIレディネス評価のエージェント型システム
arXiv cs.AI / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、AI-for-Scienceにおける異種科学データのAIレディネスを大規模に評価するためのエージェント型システム「SciHorizon-DataEVA」を提案し、体系的な評価手法の不足に対処します。
- AIレディネスを「ガバナンスの信頼性」「データ品質」「AI適合性」「科学的適応性」の4つの測定可能な次元に整理するSci-TQA2フレームワークを提示します。
- SciHorizon-DataEVAは、Sci-TQA2-EvalによってSci-TQA2を実運用し、階層型マルチエージェントでディレクティッドな循環ワークフローを用いて評価計画を反復的に生成・実行します。
- 評価仕様は、軽量なデータセットプロファイリング、適用可能性に応じたメトリクスの有効化、そしてドメイン制約やデータセットと論文の関連シグナルに基づく知識強化型計画を組み合わせて動的に構築します。
- 複数領域の科学データセットに対する実験により、SciHorizon-DataEVAがスケーラブルかつ信頼性が高く、汎用的なAIレディネス評価を可能にすることが示されます。
- 評価の実行は適応的でツール中心の仕組みで行われ、検証と自己修正を組み込むことで結果の信頼性向上を図っています。