生物医学文献におけるリトリーバル強化生成のためのグラフ対応レイト・チャンキング
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MRRのような単一チャンクのランキング指標による生物医学RAG評価では不十分であり、文書の構造的セクションにまたがる検索の広がりを無視してしまうためだと主張している。
- これは、レイト・チャンキングに加えて、構造を意識したチャンク境界検出、UMLS知識グラフの注入、グラフに導かれるハイブリッド検索を通じて、構造に関する知的情報を取り込むことで、GraLC-RAGを提案する。
- 2,359件のPubMed Central論文と2,033件の横断的な質問を用いた実験では、内容の類似性に基づく検索が最良のMRR(0.517)を達成するものの常に1つのセクションからしか取り出さない。一方、構造を意識した手法は、最大で15.6×多くのセクションから情報を取得できる。
- 生成段階では、KG(知識グラフ)を注入した検索により、回答品質のギャップ(delta-F1)が0.009縮小する一方で、はるかに高いセクション多様性(4.6×)を維持でき、より良い多セクション統合への道筋が示される。
- 著者らは、標準的な指標が構造を踏まえた検索を体系的に過小評価しており、生物医学RAGにおける多セクションの証拠統合は未解決の課題だと結論づけている。
