知識可視化:知識集約型テキスト・ツー・イメージ生成のためのベンチマークと手法

arXiv cs.CV / 2026/4/27

📰 ニュースModels & Research

要点

  • 本研究は、知識集約型のテキスト・ツー・イメージ(T2I)では、領域知識・構造的制約・記号的規約を厳密に守る必要があるにもかかわらず、既存モデルの信頼性が十分に検証されていない点を指摘しています。
  • 30冊以上の権威ある教科書から作られた1,800件の専門家監修プロンプトを、6つの高校レベル科目(生物、化学、地理、歴史、数学、物理)にわたって収録したカリキュラム準拠のベンチマーク「KVBench」を提案しています。
  • 14の最先端の公開・非公開(クローズド)T2Iモデルを評価した結果、論理推論、記号の正確性、多言語対応の面で顕著な弱点が見つかりました。
  • 科学的忠実度を高めるために、構造化プロンプトを知識の精緻化で補強する「Knowledge Elaboration」と、チェックリストに基づいて違反を特定し制約誘導で編集する「Checklist-Guided Refinement」の2段階からなる枠組み「KE-Check」を提案しています。
  • KVBenchのデータセットとコードは公開されており、さらなる研究とベンチマークに活用できます。

要旨: 近年のテキストから画像への(T2I)モデルは、フォトリアリスティックな合成や指示追従において目覚ましい能力を示している。だが、知識集約的な環境における信頼性は、ほとんど未検討のままである。自然画像の生成とは異なり、知識の可視化では、意味的な整合だけでなく、領域知識への厳密な遵守、構造上の制約、記号(シンボル)の慣習も必要となる。その結果として、視覚的もっともらしさと科学的正しさの間に、重大なギャップが存在することが明らかになる。この問題を体系的に研究するために、カリキュラムに基づくベンチマークであるKVBenchを提案し、知識集約的なT2I生成を評価する。KVBenchは、高校上級レベルの6科目、すなわち生物、化学、地理、歴史、数学、物理をカバーする。ベンチマークは、30以上の権威ある教科書から導出された1,800件の専門家が厳選したプロンプトで構成される。これらのベンチマークを用いて、14の最先端のオープンソースおよびクローズドソースのモデルを評価した。その結果、論理的推論、記号の正確さ、多言語に対する頑健性において重大な欠陥があることが判明した。さらに、オープンソースのモデルは一貫してプロプライエタリ(専用)システムを下回る。これらの制限に対処するために、科学的忠実性を改善する2段階フレームワークであるKE-Checkも提案する。KE-Checkは、(1) 構造化されたプロンプト強化のためのKnowledge Elaboration(知識の精緻化)、および(2) 違反の特定と、制約に導かれた編集による明示的な制約強制のためのChecklist-Guided Refinement(チェックリストに導かれた洗練)からなる。KE-Checkは、科学的な幻覚を効果的に緩和し、オープンソースモデルと主要なクローズドソースモデルとの性能差を縮める。データとコードは https://github.com/zhaoran66/KVBench で公開されている。