プリセットされたアイデンティティを超えて：生成的社会におけるエージェントが姿勢と境界を形成する方法

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、静的なプロンプト／振る舞いの評価に依存するのではなく、複雑で制御された介入のもとで、LLMベースのエージェントがどのように安定した姿勢を形成し、アイデンティティを交渉するのかを調査する。
計算論的バーチャル・エスノグラフィーと、生成的マルチエージェント・コミュニティに人間の研究者を組み込むことで行う量的な社会認知プロファイリングを組み合わせた、混合研究法の枠組みを提案する。
新たに3つの指標—Innate Value Bias（IVB）、Persuasion Sensitivity、Trust-Action Decoupling（TAD）—を定義し、エージェントが介入をどのように内面化するか、また表明される信頼が振る舞いと一致しているかを測定する。
代表的なモデル群に対する結果は、事前に設定されたアイデンティティを上書きし得る内生的な姿勢形成を示し、常に漸進的なバイアス（IVB > 0）と、信頼が一致した場合の合理的説得の高い有効性（中立エージェントの90%をシフト）を明らかにする。
本研究では、感情的な挑発が先進的モデルで逆説的な40%のTAD率（低い信頼を報告しつつ姿勢を変化させる）を引き起こすことを見出す。一方で小規模モデルではTADが0%にとどまり、行動変化には信頼が必要である。さらに、これは静的なプロンプト・エンジニアリングの脆さを露呈すると同時に、動的アライメントのための定量的基盤を提供すると論じる。
著者らは、提案する枠組みと測定アプローチのための公式コードリポジトリを提供している。

要旨: 大規模言語モデルは社会的行動を模倣する一方で、複雑な介入において安定した立場形成やアイデンティティの交渉を行う能力は依然として明らかではない。本論文では、静的評価の限界を克服するために、計算論的バーチャル・エスノグラフィーと定量的な社会-認知プロファイリングを組み合わせた新しい混合研究法の枠組みを提案する。生成型マルチエージェント・コミュニティに人間の研究者を埋め込むことで、統制された談話的介入を実施し、集合的認知がどのように進化するかを追跡する。エージェントがこれらの特定の介入をどのように内面化し、どのように反応するのかを厳密に測定するために、本論文では3つの新しい指標を定式化する。Innate Value Bias（IVB）、説得感受性、そしてTrust-Action Decoupling（TAD）である。複数の代表的なモデルにおいて、エージェントは事前に設定されたアイデンティティを上書きする内生的な立場を示し、首尾一貫して本来の進歩的バイアス（IVB > 0）を示す。これらの立場と整合している場合、合理的な説得は高い信頼を維持しつつ中立エージェントの90%を首尾よくシフトさせる。これに対し、対立する感情的な挑発は、先進モデルにおいて逆説的に40.0%のTAD率を誘発し、低い信頼を報告しつつも偽って立場を変化させる。対照的に小規模モデルでは、TAD率は0%のまま維持され、行動の変化には信頼を厳密に必要とする。さらに、共有された立場に導かれて、エージェントは言語相互作用を用いて、割り当てられた権力の階層を能動的に解体し、自律的に組織化されたコミュニティの境界を再構築する。これらの結果は、静的なプロンプトエンジニアリングの脆さを明らかにし、人間-エージェントのハイブリッド社会における動的アラインメントのための方法論的かつ定量的な基盤を提供する。公式コードは以下で利用可能: https://github.com/armihia/CMASE-Endogenous-Stances