Abstract
金融AIシステムは、特定の規制上の提出書類に根拠づけられた回答を生成しなければなりません。しかし、現在のLLMは指標を捏造し、引用を作り上げ、導出量を誤算します。これらの誤りは、EU AI Actの高リスク執行期限が近づく中(2026年8月)、直接的な規制上の影響をもたらします。既存の幻覚検出器はすべての主張を一様に扱うため、構造化された表に対して算術の再検証が必要な計算エラーの43%を見落としています。私たちは、金融文書QAのための「検証してから根拠づける」3段階パイプラインであるFinGroundを提案します。第1段階では、テキストと表に対して、金融に配慮したハイブリッド検索を実行します。第2段階では、回答を原子的な主張に分解し、6タイプの金融タクソノミーで分類したうえで、式の再構築を含む型ルーティング戦略により検証します。第3段階では、裏付けのない主張を書き換え、段落レベルおよび表セルレベルの引用を付与します。検証価値を検索品質から明確に切り分けるために、RAG検証研究の標準的手法として、検索を等価化した評価(retrieval-equalized evaluation)を提案します。すべてのシステムに同一の検索が与えられる場合でも、FinGroundは最強のベースラインに比べて幻覚率を68%低減します(p < 0.01)。完全なパイプラインでは、GPT-4oに対して78%の低減を達成しています。8Bに蒸留した検出器は、1主張あたりのレイテンシを18分の1に抑えつつ、F1を91.4%維持し、1クエリあたり0.003でのデプロイを可能にします。さらに、4週間にわたるアナリストによるパイロットから得られた定性的なシグナルによって裏付けられています。