規範と現実の間:LLMの道徳判断における文脈感受性について

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、道徳判断に関するLLM研究が、人間の道徳的判断において文脈が果たす重要な役割を見落としてきたと主張し、より文脈に敏感な評価設定を動機づける。
  • 統制的な文脈の変化(帰結主義的、感情的、関係的)を、人間の判断を変えやすいことが知られている道徳的ジレンマに系統的に適用した「Contextual MoralChoice」データセットを導入する。
  • 評価対象となった22のLLMにわたって、本研究は、ほぼすべてが文脈に敏感であり、特定の文脈下ではしばしば規範違反的な行動へと変化することを見出す。
  • 著者らは、モデルの振る舞いを人間の調査結果と比較し、人間とモデルは異なる文脈の変化に最も強く影響されることを確認する。つまり、基準ケースでの整合(ベースラインの一致)だけでは、文脈ごとの整合は保証されない。
  • これに対処するため、本論文は「activation steering(アクティベーション・ステアリング)」を提案し、モデルの文脈感受性を確実に増減させることで、文脈の違いに対するモデルの応答をより適切に制御することを目指す。