ラベルの影響:信頼評価における人間とLLM-as-a-Judgeの共有ヒューリスティック依存
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、自動化された信頼/評価のためにLLM-as-a-Judgeを用いる場合、基となるコンテンツが同一であっても、開示された出所ラベルが結果をバイアスし得ることを示している。
- 反実仮想的な設定を用いることで、人間の参加者とLLM判定者の双方が、同一のコンテンツに対して「人間が作成した(human-authored)」とラベル付けされた場合のほうが「AI-generated(AIが生成した)」とラベル付けされた場合よりも高い信頼を評価した。
- 視線計測の証拠から、人間は出所ラベルをヒューリスティックな近道として用いており、本研究ではLLMも同様に、コンテンツ領域よりラベル領域に注意を過度に向けることが示された。
- ラベルに駆動される効果は条件によって異なる。すなわち、「Human」ラベルではラベル優位性がより強く、またLLMが測定した意思決定の不確実性は「AI」ラベルの下で高い。
- 著者らは、ラベルに敏感なLLM-as-a-Judge評価の妥当性に関する懸念を提起し、デバイアス(バイアス低減)された評価/軽減戦略を提案している。さらに、人間の嗜好への整合が、人間のヒューリスティック依存をモデルへ転移させ得る点にも注意を促している。


