概要: 組織がコンプライアンス、リスク評価、意思決定支援のために、AI を活用した質問応答システムを財務情報システムへますます統合していくにつれて、AI が生成した出力の事実としての正確性を保証することが、重要な工学課題となっている。現在の知識グラフ(KG)拡張型QAシステムには、「幻覚(hallucination)」――信頼性と利用者の信頼を損なう、事実に反する出力を検出するための体系的な仕組みが欠けている。我々は、SEC 10-K の提出書類における KG 拡張型の財務 QA に対して、幻覚検出手法を評価するためのベンチマーク FinBench-QA-Hallucination を提案する。このデータセットには 300 ページから 755 の注釈付き例が含まれており、保守的な証拠の連結(evidence-linkage)プロトコルによって基底性(groundedness)をラベル付けしている。このプロトコルでは、テキストのチャンクと抽出されたリレーショナルな三つ組の双方からの支持が必要である。我々は、6 つの検出アプローチ――LLM ジャッジ、微調整した分類器、自然言語推論(NLI)モデル、スパン検出器、埋め込みベースの手法――を、2 つの条件(KG 三つ組あり/なし)で評価する。その結果、LLM ベースのジャッジと埋め込みアプローチは、クリーンな条件下で最も高い性能を達成する(F1: 0.82-0.86)。しかし、多くの手法はノイズのある三つ組が導入されると大きく劣化し、マシューズ相関係数(MCC)が 44-84 パーセント低下する一方で、埋め込みベースの手法は相対的に頑健で、劣化はわずか 9 パーセントにとどまる。統計的検定(Cochran の Q と McNemar)により、有意な性能差が確認される(p < 0.001)。我々の発見は、現在の KG 拡張型システムの脆弱性を浮き彫りにし、幻覚が規制違反や誤った意思決定につながり得る、信頼性の高い財務情報システムを構築するための示唆を提供する。このベンチマークは、医療、法務、政府といった他のハイステークス領域にまで及ぶ情報システム設計において、AI の信頼性評価を統合するための枠組みも提供する。
FinReflectKG -- HalluBench: 金融質問応答システム向けGraphRAG幻覚(ハルシネーション)ベンチマーク
arXiv cs.CL / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、SEC 10-Kの提出書類を用いて、KG(知識グラフ)拡張型の金融QAシステムにおける幻覚(ハルシネーション)の検出を評価するためのベンチマーク「FinBench-QA-Hallucination」を提案する。
- データセットには、テキスト断片と抽出されたリレーショナル・トリプルの両方からの証拠を要求する保守的な根拠妥当性(groundedness)プロトコルに基づく、755件のアノテーション付き例が含まれる。
- 幻覚検出の6つのアプローチ(LLMジャッジ、微調整した分類器、NLIモデル、スパン検出器、埋め込みベース手法)を、KGトリプルの有無のシナリオで評価する。
- 結果として、クリーンなKGデータではLLMジャッジおよび埋め込みアプローチが高い性能を示す(F1が約0.82〜0.86)。一方で、ノイズのあるトリプルではほとんどの手法が大きく劣化し(MCCが44〜84%低下)、埋め込み手法は比較的頑健である(劣化は約9%)。
- 本研究は、コンプライアンスやリスクに焦点を当てた金融分野の導入における信頼性リスクを強調し、高ストakesな情報システム設計にAIの信頼性評価を統合するための枠組みを提案する。




