CounterMoral: 言語モデルにおけるモラルの編集
arXiv cs.AI / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、言語モデルの編集手法が道徳判断に与える影響を、事実の変更だけにとどまらず評価することを目的としたベンチマークデータセット「CounterMoral」を導入する。
- 複数の既存のモデル編集手法をいくつかの言語モデルに適用し、さまざまな倫理的枠組みにわたる結果を測定する。
- アラインメント研究におけるギャップに対処し、編集によって価値や倫理に関わる振る舞いが維持されるのか、あるいは意図せず歪められるのかに焦点を当てる。
- 著者らは、ベンチマークと結果を、倫理的に振る舞うことを意図したモデルをより信頼性高く評価するための貢献として位置づける。



