要旨: 本論文では、RAG(retrieval-augmented generation:検索拡張生成)と新しい事後的な主張検証メカニズムを統合する、バイオメディカル質問応答のためのオープンソース・エキスパートシステムであるVerifAIを紹介します。従来の標準的なRAGシステムとは異なり、VerifAIは、生成された回答を原子的な主張(atomic claims)に分解し、微調整した自然言語推論(NLI)エンジンを用いて取得した根拠(evidence)に照らしてそれらを検証することで、事実整合性を保証します。システムは3つのモジュールで構成されています:(1)バイオメディカルのクエリに最適化されたハイブリッド情報検索(Information Retrieval, IR)モジュール(MAP@10が42.7%)、(2)カスタムデータセットで微調整され、参照付きの回答を生成する、引用情報を考慮した生成コンポーネント、(3)最先端の精度で幻覚(hallucinations)を検出する検証コンポーネントであり、HealthVerベンチマークにおいてGPT-4を上回ります。評価の結果、VerifAIはゼロショットのベースラインと比べて幻覚的な引用を大幅に減らし、すべての主張に対して透明で検証可能な系譜(lineage)を提供することが示されます。コード、モデル、データセットを含む全パイプラインは、ハイステークス領域における信頼性の高いAI導入を促進するためにオープンソース化されています。
VerifAI:生物医学QAのための検証可能なオープンソース検索エンジン
arXiv cs.AI / 2026/4/13
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- VerifAIは、RAGで回答を生成しつつ、生成内容を原子的な主張(atomic claims)に分解して根拠となる証拠を検証するポストホックの主張検証機構を組み込んだ、生物医学QA向けのオープンソース専門家システムです。
- ハイブリッドな生物医学向け情報検索(IR)モジュール、引用を意識した生成コンポーネント、そして微小な幻覚(hallucination)を検出する検証コンポーネントの3モジュール構成で、HealthVerベンチマークではGPT-4を上回ると報告されています。
- fine-tuned NLIエンジンによる検証により、ゼロショット基準より幻覚的な引用を大幅に減らし、各主張に対する検証可能な根拠の系譜(verifiable lineage)を提供します。
- 本論文ではコード・モデル・データセットを含むフルパイプラインをオープンソース化し、高リスク領域での信頼性あるAI導入を促すことを目的としています。




