要旨: 大規模言語モデルとディープリサーチエージェントは、自らの主張を裏付けるために引用URLを提示しますが、それらの引用がどれほど信頼できるかは、体系的に測定されていません。本研究では、DRBench(53,090 URL)上の10モデルとエージェント、およびExpertQA(32の学術分野にまたがる168,021 URL)上の3モデルを用いて、引用URLの妥当性に関する6つの研究課題に取り組みます。その結果、引用URLの3--13\%が幻覚的(ハルシネーション)であることが分かりました――Wayback Machineに記録がなく、そもそも存在しなかった可能性が高い一方で、全体として5--18\%は解決不能です。ディープリサーチエージェントは、検索拡張型LLMよりも問い合わせあたりに生成する引用が大幅に多いものの、URLの幻覚をより高い割合で生み出します。ドメインの影響は顕著です。解決不能率は、5.4\%(ビジネス)から11.4\%(神学)まで幅があり、モデルごとの影響はさらに大きくなります。失敗を分解すると、解決不能なURLをすべて捏造するモデルがある一方で、真正の取得を示す「リンクロット(リンク切れ)」の割合が相当程度見られるモデルもあることが明らかになります。解決策として、Wayback Machineを用いてURLの生存性(ライブラリが生きているか)を確認し、古くなったものと幻覚的なものを分類するためのオープンソースツールurlhealthを公開します。エージェント的自己修正の実験では、urlhealthを備えたモデルが解決不能な引用URLを6\textrm{--}79\times削減して1\%未満に抑えますが、その有効性はモデルのツール使用能力に依存します。ツールとすべてのデータは公開されています。本研究による特徴付けの結果、失敗の分類(タクソノミー)、およびオープンソースのツール群は、引用URLの妥当性が大規模に測定可能であり、実際には修正(correctable)も可能であることを示しています。
商用LLMとディープリサーチエージェントにおける参照(引用)ハルシネーションの検出と修正
arXiv cs.CL / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、DRBench(53,090 URL)およびExpertQA(168,021 URL)を用いて、商用LLMとディープリサーチエージェントにおける引用URLの妥当性を体系的に測定し、引用URLがハルシネーションされているのか、あるいは解決(参照)ができない(非レスポルビング)状態なのかに焦点を当てる。
- 引用URLのうち3〜13%はハルシネーションされているように見える(Wayback Machineに記録がない)こと、また全体で5〜18%は非レスポルビングであることを見出し、ドメイン(例:ビジネス vs. テオロジー)やモデル/エージェントによって大きな差がある。
- ディープリサーチエージェントは検索拡張LLMよりもクエリあたりに生成する引用数が多い傾向にあるが、その一方でURLのハルシネーション率も高い。
- 著者らは失敗モードを分解し、一部のモデルは非レスポルビングなURLをまったくの創作として生成するのに対し、他のモデルは実際の取得内容を反映したリンクを出すもののリンクロット(リンク腐敗)の影響を受けることを示す。
- Wayback MachineベースでURLを「陳腐(stale)」か「ハルシネーション」かに分類するオープンソースツールurlhealthを公開し、urlhealthによるエージェントの自己修正によって、モデルのツール利用能力に応じて非レスポルビングな引用を6〜79倍減らし、1%未満にできることを示す。




