LLMのバイアスを探り、AIサーチの概要を操作する

arXiv cs.AI / 2026/5/4

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Web検索のオーバービューを生成するLLM Overviewシステムにおいて、特にソース選択段階でLLMのバイアスがどのように影響するかを調べています。
  • 検索結果のスニペットを強化してLLM Overviewに取り上げられやすくするための、強化学習による書き換え手法を提案しています。
  • 実験では、ポリシーの動作をスニペット文面のみに限定し、現実的なWeb検索環境の制約を反映するように報酬の悪用(reward-hacking)も抑えています。
  • 結果として、LLM Overviewシステムにはバイアスが存在し、強化学習でスニペット内容を最適化することでオーバービュー結果を操作できるケースが多いことが示されています。
  • さらに、LLM Overviewの選択は候補ソース間の相対的な優位性(比較)に左右され、文脈汚染によって不正確または有害な結果につながり得るという安全上のリスクも示されています。

要旨: 現代の大規模言語モデル(LLM)は、一般に多くのビジネスアプリケーションで使用されており、特に、検索結果の概要を生成するウェブ検索システムおよびアプリケーション、すなわちLLM概要システムで使用されています。これらのシステムでは、LLMを用いて検索結果から最も関連性の高い情報源を選択し、ユーザの問い合わせに対する回答を生成します。多くの研究から、LLMにはさまざまなバイアスがあることが知られています。LLM概要アプリケーションでは、情報源の選択段階と回答生成段階の両方が、LLMのバイアスの影響を受け得ます(ここでは主に選択段階に焦点を当てます)。本研究は、LLM概要システムにおけるバイアスの存在と、LLM概要の結果を操作するためのバイアス悪用を調査することに焦点を当てています。ここでは強化学習を用いて小型の言語モデルを学習し、検索スニペットを書き換えることで、それらがLLM概要によって好まれる可能性を高めます。実験設定では、方策がスニペットに対してのみ作用することを意図的に制限し、報酬ハッキングの方略を抑えることで、ウェブ検索環境における現実的な制約を反映しています。その結果、LLM概要システムにはバイアスが存在し、また多くの場合において強化学習がスニペットの内容を最適化してLLM概要の結果を操作できることが示されます。さらに、LLM概要の選択は、候補となる情報源間の比較における優位性によって導かれ、絶対的な優位性によるものではないことも示します。加えて、LLM概要の操作可能性に関する安全性の観点を検討し、コンテキスト汚染攻撃が不正確または有害な結果につながり得ることを示します。