関係性を伴う道徳的ジレンマにおける機械の振る舞い：道徳的正しさ、人間の予測行動、そしてモデルの意思決定

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、犯罪の重大度と関係の親密さを変える形で、Whistleblower's Dilemmaを用い、LLMが道徳的ジレンマにおける社会的文脈の影響をどの程度捉えているかを調べている。
研究では、道徳的正しさ（規範としての処方）、予測される人間の行動（社会的期待の記述）、およびモデル自身の自律的な意思決定という3つの観点を比較し、親密さの変化に対する応答の違いを検証している。
結果として、観点間で明確なズレが確認されており、道徳的正しさは一貫して公正志向である一方、予測される人間の行動は関係が深まるほど忠誠へ大きく傾く。
モデルの意思決定は、人間の行動を予測する内容ではなく道徳的正しさの判断に一致しており、内部の世界モデルに見られる社会的ニュアンスよりも、硬直した処方的ルールを優先していることが示唆されている。
著者らは、こうした不一致が現実の社会的状況で意思決定支援として用いられる際に、重大なミスアラインメントにつながり得ると警告している。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA