広告

CounterMoral: 言語モデルにおけるモラルの編集

arXiv cs.AI / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、言語モデルの編集手法が道徳判断に与える影響を、事実の変更だけにとどまらず評価することを目的としたベンチマークデータセット「CounterMoral」を導入する。
  • 複数の既存のモデル編集手法をいくつかの言語モデルに適用し、さまざまな倫理的枠組みにわたる結果を測定する。
  • アラインメント研究におけるギャップに対処し、編集によって価値や倫理に関わる振る舞いが維持されるのか、あるいは意図せず歪められるのかに焦点を当てる。
  • 著者らは、ベンチマークと結果を、倫理的に振る舞うことを意図したモデルをより信頼性高く評価するための貢献として位置づける。

Abstract

言語モデル技術の最近の進歩により、事実情報の編集能力が大幅に向上しました。しかし、人間の価値観にモデルを整合させる上で重要な側面である道徳的判断の修正は、あまり注目されていません。本研究では、多様な倫理的枠組みにわたって、現在のモデル編集手法がどの程度道徳的判断を修正できるかを評価するために設計されたベンチマークデータセット「CounterMoral」を提案します。複数の言語モデルに対してさまざまな編集手法を適用し、その性能を評価します。私たちの知見は、倫理的であることを目指して設計された言語モデルの評価に貢献します。

広告