リダイレクトされるが、取り除かれない:タスク依存のステレオタイプがLLMアラインメントの限界を示す

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単一のベンチマークからLLMのバイアスを判断することはできないと主張する。なぜなら、ステレオタイプは特定のタスク形式に依存し、モデルは明示的な意思決定タスクと暗黙的な連想タスクの間で挙動を変えるからである。
  • 階層的な9種類のバイアスタクソノミー(カースト、言語的軸、地理的軸などを含む)を提示し、7つの評価タスクによってそれらを実運用(operationalize)することで、露骨な形と微妙な形の両方のバイアスを捉える設計にしている。
  • 約45K件のプロンプトを用いて7つの商用およびオープンウェイトLLMを監査した結果、3つの一貫したパターンが確認された。すなわち、(1)タスク依存のバイアス、(2)周縁化された集団に対して負の特性が付与されないようにする一方向的で「非対称な」アラインメント(それでも特権集団には正の特性を付与する)、(3)十分に研究されていないバイアス軸における特に強いステレオタイピングである。
  • 著者らは、現在のアラインメント手法や単一のスライスによる監査は、バイアスがプロンプト/タスクの文脈によってどのように現れるかを誤って特徴づけることで、表象上の害を見えにくくしてしまう可能性があると結論づけている。