逐次的社会的ジレンマに対するLLMポリシーの合成における協力と搾取

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMを用いて逐次的社会的ジレンマのエージェントのためのPythonで記述されたポリシー関数を反復的に生成し、自己対戦による性能フィードバックを通じて評価する方法を探究している。
  • スパースフィードバック(スカラー報酬)と、報酬に社会指標(効率、平等、持続可能性、平和)を加えたデンスフィードバックを、二つの標準的ジレンマ(GatheringとCleanup)および二つの最前線LLM(Claude Sonnet 4.6 および Gemini 3.1 Pro)で比較し、デンスフィードバックはしばしばスパースと同等かそれを上回る。
  • デンスな社会指標は協調戦略へとLLMを誘導する調整信号として機能し、領域の分割、適応的な役割割り当て、無駄な攻撃性の回避といった協力戦略へ導く一方、公正性の過剰最適化を引き起こさない。
  • 著者は敵対的な実験を実施し、5つの攻撃クラスを特定するとともに緩和策を論じ、LLMポリシー合成における表現力と安全性の間の緊張を強調しています。
  • 本研究では、再現とさらなる研究を可能にするコードを https://github.com/vicgalle/llm-policies-social-dilemmas に提供しています.

要旨:私たちはLLMポリシー合成を研究します。大規模言語モデルを用いてマルチエージェント環境のためのプログラム的なエージェントポリシーを反復的に生成する、ということです。強化学習によってニューラルポリシーを訓練する代わりに、私たちのフレームワークはLLMにPythonポリシー関数を生成させ、それらを自己対戦で評価し、反復を通じてパフォーマンスフィードバックを用いて改良します。改良中にLLMへ提示される評価情報の設計(フィードバックエンジニアリング)を調査し、疎なフィードバック(スカラー報酬のみ)に対して密なフィードバック(報酬と社会指標:効率、平等、持続可能性、平和)を比較します。二つの標準的な逐次的社会的ジレンマ(Gathering および Cleanup)と二つの最前線のLLM(Claude Sonnet 4.6、Gemini 3.1 Pro)にわたり、密なフィードバックはすべての指標で疎なフィードバックと一致するか上回ることを一貫して示しました。利点は Cleanup の公共財ゲームで最も大きく、社会指標を提供することでLLMが高コストな清掃-収穫のトレードオフを校正するのを助けます。公正性の過剰最適化を引き起こす代わりに、社会指標は協調のシグナルとして機能し、LLMをより効果的な協力戦略へと導きます。これには領土の分割、適応的な役割割り当て、無駄な攻撃の回避が含まれます。さらに、LLMsがこれらの環境を報酬を改ざんする形で操作できるかを判断する敵対的実験を行います。我々は五つの攻撃クラスを特徴づけ、対策について論じ、表現力と安全性の間の本質的な緊張を浮き彫りにします。
コードは https://github.com/vicgalle/llm-policies-social-dilemmas にあります。