ブラックボックスLLMを信頼できるのか?バイアス拡散とマルチエージェント強化学習による、信頼できない境界の検出
arXiv cs.AI / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ブラックボックスLLMをいつ信頼できるのかを検討し、解答を直接評価するのではなく、トピック領域における「信頼できない境界」を検出することに焦点を当てている。
- Wikipedia由来の知識グラフと、複数の強化学習エージェントを用いることで、問い合わせ制約のもとでLLMが偏った応答を生成しやすいトピックを特定するGMRL-BDというアルゴリズムを提案する。
- 実験により、この手法が限られた数のLLMクエリのみで、信頼できないトピック領域を特定できることが示され、ブラックボックス設定において実用的であることが明らかになった。
- 著者らはまた、いくつかの代表的なLLM(Llama2、Vicuna、Falcon、Qwen2、Gemma2、Yi-1.5 など)を対象に、それぞれのモデルがバイアスを示しやすいトピック領域に関するラベル付きデータセットも新たに公開している。


