概要: 大規模言語モデル(LLM)およびLLMベースのエージェントが、意思決定の文脈において人間とますます相互作用するようになるにつれ、人間とAIエージェントの間の信頼ダイナミクスを理解することが中心的な関心事となっている。人間がAIエージェントをどのように信頼するかについての研究はかなりある一方で、LLMベースのエージェントが人間に対して効果的な信頼をどのように形成するかは、はるかに理解が進んでいない。LLMベースのエージェントは、意思決定を支援し影響を与えるために、信頼に関わる文脈(例:個々の融資申請の評価)において、何らかの暗黙的な有効信頼に依拠している可能性がある。確立された行動理論を用いて、我々は、人間の被験者の信頼に値する度合いを表す3つの主要な次元――能力(competence)、思いやり(benevolence)、誠実さ(integrity)――が、LLMの信頼に依存するのかどうかを検討するアプローチを開発する。また、人口統計学的変数が効果的信頼にどのように影響するかも調べる。5つの人気の言語モデルについて、5つの異なるシナリオで合計43,200件の模擬実験を行った結果、LLMの信頼形成は、人間の信頼形成と全体として類似していることが分かった。多くの場合で(ただし全ての場合ではないが)、LLMの信頼は信頼に値する度合いによって強く予測され、さらに場合によっては年齢、宗教、性別によっても、特に金融シナリオにおいて偏りが生じていることが分かった。これは、文献でよく見られるシナリオや、新しいモデルにおいて特に当てはまる。全体的なパターンは、人間らしいメカニズムによる効果的信頼形成と整合するものの、信頼の推定方法にはモデルごとの差があり、場合によっては信頼に値する度合いおよび人口統計学的要因が、効果的信頼の弱い予測因子にとどまることもある。これらの知見は、AIから人間への信頼ダイナミクスをよりよく理解し、バイアスや信頼形成パターンを監視して、信頼に敏感なAIアプリケーションにおける意図しない、そして潜在的に有害な結果を防ぐ必要性を示している。
大規模言語モデルは人間をどのように信頼するのかを詳しく見る:パターンとバイアス
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、意思決定課題において、LLMベースのエージェントが人間への効果的な信頼をどのように形成するのかを調査し、信頼の主要な次元として「有能性」「誠実さ(善意)」「誠実性(インテグリティ)」に焦点を当てる。
- 5種類の人気の言語モデルと複数のシナリオを用い、合計43,200件のシミュレーション実験を行った結果、LLMの信頼形成はしばしば人間の信頼形成のパターンに類似していることが分かった。
- ほとんどのシナリオでは、LLMの信頼は知覚された人間の信頼性によって強く予測されるが、関係が弱まったり、モデルによって変化したりするケースもある。
- 本研究では、年齢、宗教、性別といった属性が、LLMから人間への信頼の推定にバイアスをもたらしうることも明らかになっており、その効果は特に金融シナリオで顕著である。
- 得られた知見は、意図しない、そして潜在的に有害な結果を減らすために、信頼に敏感な導入においてAIから人間への信頼ダイナミクスとバイアスをモニタリングする必要性を強調している。




