忠実なLLM推論のための知識コンフリクトの探究：ベンチマークと手法

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、LLM推論における「知識コンフリクト」を、テキスト根拠と知識グラフ（KG）根拠の間で検証するための新しいベンチマークConflictQAを提案する。
従来研究では主に、検索された外部知識とモデルの内部（パラメトリック）知識との間のコンフリクトが扱われてきたが、本研究は複数の外部知識の形式にまたがるソース間のコンフリクトを対象としている。
代表的なLLMに対する実験の結果、テキスト根拠とKG根拠が対立する状況では、モデルは信頼できる根拠を選択できないことが多く、しばしば誤った回答を生成することが示される。
本研究では、ソース間コンフリクトによってLLMの振る舞いがプロンプトにより敏感になることが分かり、両者を統合するのではなく、KGまたはテキストのどちらかに過度に依存する傾向がある。
これらの問題に対処するため、著者らは異種で対立する根拠に対応するための、2段階の説明に基づく思考フレームワークXoTを提案し、大規模な評価によってその有効性を検証する。

要旨: 大規模言語モデル（LLM）は、検索拡張生成（RAG）によって外部知識を補強することで、幅広い用途にわたって目覚ましい成功を収めてきました。広く普及している一方で、近年の研究では、LLMはしばしば矛盾する知識が取得されると、忠実な推論を行うのに苦労することが示されています。しかし、既存の研究は主として外部知識とLLMのパラメトリック知識との間の対立に焦点を当てており、外部知識同士の対立はほとんど未探索のままです。一方、現代のRAGシステムでは、知識の完全性と推論の忠実性を高めるために、知識グラフ（KG）のような（半）構造化データと、非構造化テキストの統合をますます重視しています。このギャップに対処するために、私たちはConflictQAという新しいベンチマークを導入します。これは、テキスト上の根拠とKG上の根拠の間の対立を体系的に具体化するものです。代表的なLLM群に対して大規模な評価を行った結果、このような異ソース間の対立に直面すると、LLMはしばしば、正しい推論のための信頼できる根拠を特定できないことが分かりました。その代わり、LLMはプロンプト選択に対してより敏感になり、KGの根拠かテキストの根拠のどちらか一方のみに依存する傾向があり、その結果として不正確な応答を生成します。これらの知見に基づき、さらにXoTを提案します。XoTは、異種で矛盾する根拠に対する推論に特化した、2段階の説明に基づく思考フレームワークであり、大規模な実験によってその有効性を検証します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/14Dailyインサイトを見る →

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

27卒の就活生はESの執筆や面接練習にAIを使うのが「当然」、裏には不安も

日経XTECH

忠実なLLM推論のための知識コンフリクトの探究：ベンチマークと手法

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

27卒の就活生はESの執筆や面接練習にAIを使うのが「当然」、裏には不安も

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

27卒の就活生はESの執筆や面接練習にAIを使うのが「当然」、裏には不安も

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し