自動化された文献間マルチホップ科学QA生成

arXiv cs.CL / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

AIM-SciQA は、文献間のマルチホップ科学 QA データセットを生成する新しい自動化フレームワークです。
大規模言語モデルを用いて、機械読解を伴う単一ホップ QA に対応し、埋め込みベースの意味的整合と選択的引用情報を通じて文献間の関係を構築します。
PubMed Central の論文 8,211 件に適用され、411,409 件の単一ホップ QA と 13,672 件のマルチホップ QA を生み出し、IM-SciQA データセットを形成します。引用情報を用いた CIM-SciQA バリアントは、オラクル設定と同等の性能を達成します。
人間評価と自動指標による検証は、高い事実的一致性を確認し、データセットが検索と QA 推論を効果的に区別することを示し、検索補助型の科学的推論の現実的なベンチマークを提供します。
このアプローチは PubMed Central を超えて拡張可能であり、データセットの妥当性とコーパス横断的な一般性を補強します。

要約: 既存の自動科学的質問生成研究は主に単一文書のファクト型QAに焦点を当て、科学的理解に不可欠な文書間推論を見落としている。私たちは AIM-SciQA を提示します。これは複数文書・多跳の科学 QA データセットを自動生成するフレームワークです。AIM-SciQA は機械読解能力を備えた大規模言語モデル（LLMs）を用いて単一跳 QA を抽出し、埋め込みベースの意味的整合性に基づく文書間関係を構築しつつ、引用情報を選択的に活用します。PubMed Central 論文 8,211 件に適用すると、単一跳 QA が 411,409 件、13,672 件の多跳 QA を生み出し、IM-SciQA データセットを形成しました。人間と自動検証の双方で高い事実的一貫性が確認され、実験結果は IM-SciQA が検索段階と QA 段階を通じて推論能力を効果的に区別し、検索強化型の科学的推論の現実的で解釈可能なベンチマークを提供していることを示しています。我々はこのフレームワークをさらに拡張し、引用情報に基づく CIM-SciQA を構築しました。オラクル設定と同等の性能を達成する引用情報に基づくバリアントであり、データセットの妥当性と一般性を強化します。