SciMDR: 科学的マルチモーダル文書推論のベンチマーク作成と高度化

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、科学的マルチモーダル文書の信頼性の高い推論データを生成する二段階の synthesize-and-reground フレームワークを提案する。
  • 彼らは SciMDR を構築し、20,000 件の論文にまたがる 300,000 件の QA ペアを含む大規模データセット、及び SciMDR-Eval という専門家注釈付きベンチマークを作成した。
  • 実験では、SciMDR でファインチューニングしたモデルが科学 QA ベンチマークで顕著な改善を達成し、特に複雑な文書レベル推論を要するタスクで効果が大きいことが示された。
  • 本研究は、ファウンデーションモデルの訓練データセット作成における規模・忠実性・現実性のトレードオフに対処する。
Abstract: 基盤モデルの訓練のための科学的マルチモーダル文書推論データセットを構築することは、規模、忠実性、現実性の間の本質的なトレードオフを伴います。 この課題に対処するため、synthesize-and-reground フレームワークを導入します。これは次の二段階のパイプラインから構成されます:(1) Claim-Centric QA Synthesis(主張中心のQA合成)、焦点化されたセグメント上で忠実で分離したQAペアと推論を生成し、(2) Document-Scale Regrounding(文書スケールリグラウンド)、これらのペアを全文書タスクへプログラム的に再埋め込み、現実的な複雑さを保証する。 このフレームワークを用いて、クロスモーダル理解のための大規模な訓練データセット SciMDR を構築しました。これは 20,000 件の科学論文にまたがる明示的な推論チェーンを含む 300,000 件の QA ペアから成ります。さらに、SciMDR-Eval という専門家注釈付きベンチマークを構築し、長さのある科学的ワークフロー全体におけるマルチモーダル理解を評価します。実験は、SciMDR でファインチューニングしたモデルが、複数の科学 QA ベンチマークで顕著な改善を達成し、特に複雑な文書レベル推論を要するタスクで顕著であることを示します。