DAGverse:科学論文からドキュメントに根ざしたセマンティックDAGを構築する

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オンラインの科学論文からドキュメントに根ざしたセマンティックDAGを構築するためのフレームワークであるDAGverseを紹介する。DAG図を監督信号として用い、周辺のテキストを文脈および根拠(エビデンス)として利用する。
  • 実際の文書は複数のもっともらしい抽象化を同時に支持し得ること、また意図されたグラフ構造と、それを支える根拠が、散文・数式・キャプション・図の各所に分散していることが難題となっている。
  • DAGverse-Pipelineは、図の分類、グラフ再構成、セマンティックなグラウンディング、検証を通じて、高精度なセマンティックDAGの例を生成する半自動システムである。
  • ケーススタディとして、著者らはDAGverse-1(108件の専門家によって検証された因果セマンティックDAGのデータセット)を公開する。各DAGには、グラフ・ノード・エッジレベルのエビデンスが含まれており、DAG分類と注釈において既存の視覚言語モデルよりも性能が向上したことを報告している。
  • 本リリースは、ドキュメントに根ざしたDAGベンチマークを可能にし、さらに科学文献における現実の根拠に基づく構造化された推論に関する研究を促進することを目的としている。

Abstract

有向非巡回グラフ(DAG)は、科学技術分野における構造化された知識を表すために広く用いられています。しかし、実世界のDAGに関するデータセットは依然として乏しいのが現状です。というのも、それらの構築には通常、領域文書の専門家による解釈が必要になるためです。本研究では、Doc2SemDAG構築、すなわち、文書と、それを説明する引用された証拠および文脈(コンテキスト)とともに、所望の意味的DAGを復元する問題を扱います。この問題は、文書が複数のもっともらしい抽象化を許し得ること、意図された構造がしばしば暗黙的であること、そして支える証拠が散文、数式、キャプション、図のあちこちに分散していることから、困難です。これらの課題に対処するために、我々は、明示的なDAG図を含む科学論文を、自然な教師データの源として活用します。この設定では、DAG図がDAG構造を与え、付随する文章が文脈と説明を与えます。オンラインの科学論文から文書に根ざした意味的DAGを構築するための枠組みDAGverseを提案します。その中核コンポーネントであるDAGverse-Pipelineは、図の分類、グラフの再構築、意味的グラウンディング、検証を通じて高精度な意味的DAG例を生成するための半自動システムです。事例研究として因果DAGに対して枠組みを検証し、グラフレベル、ノードレベル、エッジレベルの証拠を含む、専門家が検証した意味的DAG 108個からなるデータセットDAGverse-1を公開します。実験の結果、DAGverse-Pipelineは、DAGの分類とアノテーションにおいて既存のVision-Language Modelsよりも優れた性能を示します。DAGverseは、文書に根ざしたDAGベンチマークの基盤を提供し、現実世界の証拠に根ざした構造化された推論を研究する新たな方向性を切り開きます。