BioGraphletQA:知識に根ざした生成による複雑なQAデータセットの作成

arXiv cs.CL / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この論文では、知識グラフの小さな部分グラフに基づく「グラフレット・アンカー付き」プロンプトを用いて、複雑な質問応答(QA)データセットをスケーラブルに生成する枠組みを提案しています。
  • 最初の実装であるBioGraphletQAは、OREGANO知識グラフから(最大5ノードの)グラフレットに基づいて根拠付けされた119,856件の生物医学系KGQAペアを提供し、多くの例でPubMedの関連文書スニペットで補強しています。
  • ドメイン専門家による106件のQAの評価により、生成された質問が高い科学的妥当性と適切な複雑さを備えることが示されました。
  • BioGraphletQAを下流ベンチマークに追加すると精度が向上し、PubMedQAでは低リソース環境で49.2%から68.5%へ、MedQAではフルリソース環境で41.4%から44.8%へ改善しています。
  • データセットとフレームワークのコードは公開されており、MCQAやKGQAなどのタスクで再現・再利用・拡張を可能にしています。

要旨: 本論文は、複雑な質問応答(QA)データを体系的に生成するための、原理に基づきかつスケーラブルな枠組みを提示する。この枠組みの中核はグラフレット(graphlet)に基づく生成プロセスであり、知識グラフ(KG)からの小さな部分グラフを、構造化されたプロンプトとして用いることで、生成される質問の複雑さを制御し、大規模言語モデルによって生成される質問が確かな事実に根差していることを保証する。最初の具現化として、119,856件のQAペアからなる新しい生物医学KGQAデータセットであるBioGraphletQAを構築した。各エントリはOREGANO KGから最大5ノードのグラフレットに基づいており、ほとんどのペアはPubMedからの関連する文書抜粋によって補強されている。まず、106件のQAペアについて分野の専門家による評価を行い、枠組みの価値とデータセットの品質を示すことで、生成データの高い科学的妥当性と複雑さを確認した。次に、その実用的有用性として、下流ベンチマークを本データで拡張することで、低リソース設定におけるPubMedQAの精度が49.2%から68.5%へ、またフルリソース設定におけるMedQAが41.4%のベースラインから44.8%へ向上することを示し、実際の有用性を確立する。提案枠組みは、MCQAやKGQAを含む複雑なQAタスクを前進させるための重要なリソースを作成する、頑健で汎用性のある解決策を提供する。本研究を支えるすべてのリソース(データセット https://zenodo.org/records/17381119 および枠組みコード https://github.com/ieeta-pt/BioGraphletQA を含む)は、利用、再現、拡張を促進するために公開されている。