忠実なLLM推論のための知識コンフリクトの探究:ベンチマークと手法

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、LLM推論における「知識コンフリクト」を、テキスト根拠と知識グラフ(KG)根拠の間で検証するための新しいベンチマークConflictQAを提案する。
  • 従来研究では主に、検索された外部知識とモデルの内部(パラメトリック)知識との間のコンフリクトが扱われてきたが、本研究は複数の外部知識の形式にまたがるソース間のコンフリクトを対象としている。
  • 代表的なLLMに対する実験の結果、テキスト根拠とKG根拠が対立する状況では、モデルは信頼できる根拠を選択できないことが多く、しばしば誤った回答を生成することが示される。
  • 本研究では、ソース間コンフリクトによってLLMの振る舞いがプロンプトにより敏感になることが分かり、両者を統合するのではなく、KGまたはテキストのどちらかに過度に依存する傾向がある。
  • これらの問題に対処するため、著者らは異種で対立する根拠に対応するための、2段階の説明に基づく思考フレームワークXoTを提案し、大規模な評価によってその有効性を検証する。

要旨: 大規模言語モデル(LLM)は、検索拡張生成(RAG)によって外部知識を補強することで、幅広い用途にわたって目覚ましい成功を収めてきました。広く普及している一方で、近年の研究では、LLMはしばしば矛盾する知識が取得されると、忠実な推論を行うのに苦労することが示されています。しかし、既存の研究は主として外部知識とLLMのパラメトリック知識との間の対立に焦点を当てており、外部知識同士の対立はほとんど未探索のままです。一方、現代のRAGシステムでは、知識の完全性と推論の忠実性を高めるために、知識グラフ(KG)のような(半)構造化データと、非構造化テキストの統合をますます重視しています。このギャップに対処するために、私たちはConflictQAという新しいベンチマークを導入します。これは、テキスト上の根拠とKG上の根拠の間の対立を体系的に具体化するものです。代表的なLLM群に対して大規模な評価を行った結果、このような異ソース間の対立に直面すると、LLMはしばしば、正しい推論のための信頼できる根拠を特定できないことが分かりました。その代わり、LLMはプロンプト選択に対してより敏感になり、KGの根拠かテキストの根拠のどちらか一方のみに依存する傾向があり、その結果として不正確な応答を生成します。これらの知見に基づき、さらにXoTを提案します。XoTは、異種で矛盾する根拠に対する推論に特化した、2段階の説明に基づく思考フレームワークであり、大規模な実験によってその有効性を検証します。