AdaQE-CG:Web規模の生成AIモデルとデータカード生成に向けた適応的クエリ拡張

arXiv cs.AI / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、静的テンプレート、欠落したメタデータ、不十分な評価基準といった課題に対処することで、Web規模の生成AIシステム向けに、より透明で標準化されたモデルカードおよびデータカードを生成するための枠組みAdaQE-CGを提案する。
  • AdaQE-CGは、IPE-QEを用いて科学論文やリポジトリからの文脈を考慮した抽出クエリを反復的に洗練し、回収される情報の完全性を高める。
  • さらに、ICC-MPとMetaGAI Poolを用いて、類似した厳選済みカードからの意味的知識移転により、欠落しているカード項目を補完する。
  • 著者らは、複数の次元にわたってドキュメンテーションの品質を評価するための、専門家が注釈した大規模ベンチマークMetaGAI-Benchを公開し、報告結果ではAdaQE-CGが先行手法を上回り、人間レベルのモデルカード品質に達することを示している。
  • 再現性とさらなる研究を支援するため、コード、プロンプト、データをGitHubで公開する。

Abstract

信頼できる生成AI(GAI)システムを構築するには、透明で標準化されたドキュメントが不可欠です。しかし、モデルカードおよびデータカードを生成するための既存の自動化手法はいまだに、主に3つの大きな課題に直面しています:(i) 静的テンプレート。多くのシステムは固定の問い合わせテンプレートに依存しており、多様な論文構造や、進化するドキュメント要件に適応できません;(ii) 情報不足。Hugging FaceのようなWeb規模のリポジトリには、不完全または一貫性のないメタデータが多く含まれているため、情報が欠落したりノイズが多くなったりします;(iii) ベンチマークの欠如。標準化されたデータセットや評価プロトコルが存在しないことにより、ドキュメント品質を公平かつ再現可能に評価することが妨げられています。これらの制約に対処するために、本研究では、カード生成のための適応的問い合わせ拡張フレームワークであるAdaQE-CGを提案します。これは、動的な情報抽出と、カード間の知識伝達を組み合わせます。文脈対応型の問い合わせ拡張による論文内抽出(IPE-QE)モジュールは、抽出クエリを反復的に洗練させることで、科学論文およびリポジトリから、より豊かで完全な情報を回復します。一方、MetaGAI Pool(ICC-MP)を用いたカード間の補完モジュールは、キュレーションされたデータセット内の類似カードから意味論的に関連する内容を転送することで、欠落している項目を埋めます。さらに、GAIドキュメントを評価するための初の大規模・専門家注釈付きベンチマークであるMetaGAI-Benchを導入します。5つの品質次元にわたる包括的な実験の結果、AdaQE-CGは既存手法を大幅に上回り、人手で作成されたデータカードを超え、モデルカードにおいては人間レベル品質に近づくことが示されました。コード、プロンプト、データは以下で公開されています: https://github.com/haoxuan-unt2024/AdaQE-CG。