AI Navigate

単一エージェントおよびマルチエージェント生成AIアーキテクチャにおける言語的ステレオタイプの分析

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、LLM出力における方言に敏感なステレオタイプ生成(SAE対AAE)を再現し、プロンプトエンジニアリングおよびマルチエージェントアーキテクチャ(generate-critique-revise を含む)を含む緩和戦略を評価する。
  • 結果は、SAE/AAE出力間でテンプレート全体にわたるステレオタイプを含む差異を示し、形容詞属性と職業属性に最も強い影響が現れ、モデルレベルの顕著な差異が見られる。
  • Chain-of-Thought prompting は Claude Haiku における偏見の緩和に有効であることを示し、同時にマルチエージェントアーキテクチャは検証されたすべてのモデルで一貫した緩和を提供する。
  • 著者らは、公正性評価には緩和戦略のモデル固有の検証と高影響の導入のためのワークフロー水準の統制(例: エージェント型アーキテクチャ)を含めるべきだと提唱しており、研究は探索的で拡張可能であることに注意している。

Abstract

要旨

文献の多くの研究は、LLMの出力が差別的な振る舞いを示し、入力が書かれている方言に基づくステレオタイプに基づく推論を引き起こすことを示している。このバイアスは、同じ入力が標準アメリカ英語(SAE)とアフリカ系アメリカ人英語(AAE)でLLMに提供されたときに特に顕著であることが示されている。本文では、LLM出力における方言感受性ステレオタイプ生成の既存の分析を再現し、役割ベースのプロンプトや Chain-Of-Thought プロンプティングを含むプロンプトエンジニアリングや、生成-批評-改稿モデルからなるマルチエージェントアーキテクチャを含む緩和戦略の効果を検討する。SAEまたはAAE話者に対する提案名、職業、形容詞など、方言バイアスが現れるさまざまな方法を分析するために、8つのプロンプトテンプレートを定義する。我々は結果の偏りを評価するために、LLMを審判として用いるアプローチを採用する。結果は、SAE関連出力とAAE関連出力の間で、すべてのテンプレートカテゴリーにおいてステレオタイプを含む差異が現れることを示しており、最も強い効果は形容詞付与と職業属性付与で観察される。ベースラインの格差はモデルごとに大きく異なり、SAE-AAE差は Claude Haiku で最大、 Phi-4 Mini で最小である。Chain-Of-Thoughtプロンプティングは Claude Haiku にとって有効な緩和戦略であることが示され、一方でマルチエージェントアーキテクチャの使用により、すべてのモデルで一貫した緩和が達成された。これらの知見は、交差性を取り入れたソフトウェア工学において、公平性評価は緩和戦略のモデル固有の検証と、ハイインパクトなLLM展開におけるワークフロー層の制御(例:批評モデルを含むエージェント的アーキテクチャ)を含めるべきであることを示唆している。現在の結果は探索的であり、範囲は限定的であるが、データセットの規模を拡大し、手法を別の言語や方言に適用することで拡張・再現につながり得る。