要旨: Pfeffer、Kr\"ugel、Uhl(2025)は、OpenAIの推論モデルo1-miniが、非推論モデルGPT-4oよりも、トロッコ問題およびフットブリッジのジレンマに対してより功利的な回答を生成することを報告している。私は彼らの研究を4つの現在のOpenAIモデルで再現し、さらにプロンプトのバリアント検証で拡張する。トロッコの発見は持続しない。GPT-4oの低い功利性率は、デオンタロジー的なコミットメントを反映するのではなく、プロンプト内の助言的な枠組みによって引き起こされる安全上の拒否によるものである。「...は道徳的に許されるか?」として枠付けるのではなく、「私は...すべきか?」として枠付けると、GPT-4oは99%の功利的な回答を行う。すべてのモデルは、プロンプトの交絡要因が取り除かれると功利的な回答へ収束する。フットブリッジの発見は、欠点を伴いながらも存続する。推論モデルは、プロンプトの変化にわたって、非推論モデルよりも功利的な回答を与える傾向がある。しかし多くの場合、ジレンマに答えることを拒否し、また答える場合でも、功利的というよりは功利的でない回答を与える。これらの結果は、LLMの道徳的推論を単一プロンプトで評価することは信頼できないことを示している。LLMの挙動についての実証的主張を行う場合には、多プロンプトでの頑健性(ロバストネス)テストを標準的な手法とすべきである。
OpenAIのモデルは本当にどれほど功利主義的か? Pfeffer、Krüger、Uhl(2025)の再現と再解釈(2025)
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はPfeffer、Krüger、Uhl(2025)を再現し、トロッコ問題およびフットブリッジのディレンマに関するプロンプト変種に対して、4つの現在のOpenAIモデルを評価し、「功利主義的」な道徳的出力を検証する。
- 当初のトロッコ問題の結論は頑健ではない:GPT-4oの低い功利主義率は、プロンプトの助言的な枠組みによって引き起こされる安全性拒否によって主に説明されており、義務論的スタンスによるものではない。
- プロンプトを「私は〜すべきか…?」から「道徳的に許容されるか…?」へと組み替えると、GPT-4oはほぼ完全に功利主義的な応答率(99%)を示し、プロンプトによる混 confound(交絡)を取り除くとモデルは功利主義的な回答へ収束する。
- フットブリッジの結果は部分的に頑健だが不完全である:推論モデルはより功利主義的に見えることが多い一方、応答を拒否したり、応答した場合でも功利主義的でない回答を返すことがある。
- 本研究は、LLMの道徳的推論を単一プロンプトで評価することは信頼できず、実証的主張には多重プロンプトによる頑健性テストを標準とすべきだと論じている。