エージェントにおけるActor-Observer非対称性を弁証法的アラインメントで抑える

arXiv cs.CL / 2026/4/22

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMエージェントが複数エージェントによる役割分担のロールプレイや自己省察・相互監査を行う際に、Actor-Observer非対称性(AOA)が生じうることを示しています。
  • 新たに提案するAmbiguous Failure Benchmarkによれば、視点を入れ替えるだけで、ほとんどのモデルで20%超のケースでAOAが引き起こされます。
  • このバイアスを抑えるため、著者らは弁証法的アラインメントにより視点不変な推論を促すReTAS(Reasoning via Thesis-Antithesis-Synthesis)を提案します。
  • ReTASは、弁証法的なchain-of-thoughtとGroup Relative Policy Optimizationを組み合わせ、対立する見解を統合して合意(コンセンサス)を形成するよう導きます。
  • 実験では、ReTASが帰属の一貫性を改善し、曖昧な状況での障害(フォールト)解決率を有意に高めることが示されています。

要旨: 大規模言語モデルのエージェントは、静的なテキスト生成器から、複雑な自律ワークフローを実行できる動的システムへと急速に進化してきました。信頼性を高めるために、専門的な役割を割り当てるマルチエージェントの枠組みが、自己省察や相互監査を可能にするものとしてますます採用されています。このようなロールプレイはドメインの専門家知識を効果的に活用する一方で、同時にActor-Observer Asymmetry(AOA)として知られる人間らしい認知バイアスを誘発することを、私たちは見出しました。具体的には、(自己省察の際に)俳優(actor)として振る舞うエージェントは失敗を外的要因に帰属しがちであるのに対し、(相互監査の際に)観察者(observer)は同じ誤りを内的な欠陥に帰属しがちです。私たちは新しいAmbiguous Failure Benchmark(曖昧な失敗ベンチマーク)を用いてこれを定量化しました。その結果、単に視点を入れ替えるだけで、ほとんどのモデルにおいて20%超のケースでAOA効果が引き起こされることが分かりました。このバイアスを抑えるために、私たちはReTAS(Thesis-Antithesis-Synthesis による推論)を提案します。これは、弁証法的整合によって訓練され、視点不変な推論を強制するモデルです。弁証法的なchain-of-thought(思考の連鎖)とGroup Relative Policy Optimizationを統合することで、ReTASは、対立する見解を統合して客観的な合意へ導きます。実験により、ReTASが帰属の不一致を効果的に軽減し、曖昧な状況におけるフォールト解決率を大幅に向上させることが示されています。