大規模言語モデルにおける倫理的フレームワーク表現の探究:構造、エンタングルメント、および方法論上の課題

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルが義務論、功利主義、徳倫理、正義、コモンセンスといった複数の倫理規範的フレームワークを内部において表現しているのか、それとも倫理を単一の受容可能性(acceptability)次元へと還元しているのかを調べる。
  • 6つのLLM(4B〜72Bパラメータ)に対して実施したプロービング実験の結果、倫理に関する識別可能なサブスペースと非対称な転移挙動が見られた。例として、義務論から徳倫理への部分的な一般化は成立する一方で、コモンセンスのプローブは正義に関するシナリオでは失敗する。
  • 著者らは、義務論プローブと功利主義プローブの間の高い不一致が行動のエントロピー増加と相関することを観察している。ただし、これはシナリオの難しさに対する感度によって交絡されている可能性があることも指摘している。
  • 検証(事後的な検証)により、プローブの結果がベンチマーク・テンプレートの表層的特徴に部分的に依存している可能性が示唆され、これにより認識論的限界があり、解釈には慎重さが必要である。
  • 本研究は、倫理が内部でどのように符号化されうるかに関する構造的洞察と、表現プロービングの限界に関する方法論的指針の両方を提供する。

要旨: 大規模言語モデルが倫理判断を行うとき、内部表現は規範的枠組みを区別しているのか、それとも倫理を単一の受容可能性の次元に潰してしまうのか? 本研究では、6つのLLM(4B--72Bパラメータの範囲)において、5つの倫理的枠組み(義務論、功利主義、徳、正義、コモンセンス)にまたがって、隠れ表現を調べます。解析の結果、非対称な転移パターンを伴う、区別可能な倫理サブスペースが明らかになりました。たとえば、義務論のプローブは徳のシナリオへは部分的に一般化する一方で、コモンセンスのプローブは正義に対しては壊滅的に失敗します。義務論的プローブと功利主義的プローブの間の不一致は、アーキテクチャ全体でより高い行動エントロピーと相関しますが、この関係は一部、シナリオの難しさに対する共通の感度を反映している可能性があります。事後検証により、プローブはベンチマークのテンプレートにおける表面上の特徴に部分的に依存していることが示され、慎重な解釈が求められます。本稿では、これらの手法が提供する構造的な洞察と、その認識論的な限界の両方について議論します。