概要: 近年、自律型の「AI scientist」システムにおいて、実行を伴う形で科学論文やコードを自動的に執筆できることが実証されてきました。しかし、出版レベルの科学図(例:ティーザー図)を生成することは、依然として「end-to-end」の論文生成プロセスにおける大きなボトルネックです。たとえばティーザー図は、戦略的な視覚インターフェースとして機能し、派生データのプロットとは異なる目的を果たします。複雑な論理ワークフローを、直感を導き好奇心を喚起する説得力のあるグラフィックへと翻訳するために、概念の統合と計画が要求されます。既存のAI scientistシステムは通常、このコンポーネントを省略するか、劣った代替手段に頼ります。このギャップを埋めるために、本研究ではDiagramBankを提案します。DiagramBankは、既存の一流の科学出版物からキュレーションされた89,422個の模式図(schematic diagrams)からなる大規模データセットであり、多モーダル検索と、模範(exemplar)に基づく科学図の生成のために設計されています。DiagramBankは、図とそれに対応する本文中の参照を抽出する自動キュレーションのパイプラインによって構築されており、さらにCLIPベースのフィルタを用いて、模式図を標準的なプロットや自然画像から区別します。各インスタンスは、要旨、キャプションから図参照のペアまでの豊富な文脈情報と対応付けられており、クエリの粒度の異なる情報検索を可能にします。私たちはDiagramBankをインデックス化しやすい形式で公開し、ティーザー図の模範条件付き合成を示すための、検索拡張型生成コードベースを提供します。DiagramBankは https://huggingface.co/datasets/zhangt20/DiagramBank で公開されており、コードは https://github.com/csml-rpi/DiagramBank にあります。
DiagramBank:論文メタデータ付きの大規模「図解デザイン」データセット—RAG(検索拡張生成)向け
arXiv cs.AI / 2026/4/25
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本研究は、89,422点の科学図(スキーマ図)を論文メタデータと結び付けた大規模データセットDiagramBankを提案し、検索拡張生成による掲載品質の図生成を支援します。
- DiagramBankは、「AI scientist」システムのエンドツーエンド生成におけるボトルネックである、単なる図プロットの代替ではなく“ティーザー図”など戦略的な図の生成を解決することを目的としています。
- データセットは、自動キュレーション・パイプラインで図と本文中の図参照を抽出し、CLIPベースのフィルタでスキーマ図を一般的なプロットや自然画像から切り分けることで構築されています。
- 各インスタンスには、抄録やキャプションなどの豊富なテキスト文脈に加え、図参照のペアが紐づけられており、クエリの粒度に応じた検索が可能です。
- 著者らはDiagramBankをインデックス可能な形式で公開するとともに、検索拡張生成のコードベースも提供し、エグザンプル(模範例)条件付きでティーザー図を合成するデモを示しています。



