要約: 大規模言語モデル(LLMs)は道徳的に敏感な意思決定にますます関与していますが、推論の各ステップにわたって倫理的フレームワークをどのように組織するかは十分には検討されていません。私たちは \\textit{倫理的推論軌跡}、中間の推論ステップにわたる倫理的フレームワークの呼び出しの連続を導入し、それらのダイナミクスを6つのモデルと3つのベンチマークにわたって分析します。私たちは道徳的推論は系統的な複数フレームワークによる熟慮を含むことを見いだしました:連続するステップの55.4--57.7%がフレームワークの切替を伴い、軌道の16.4--17.8%のみがフレームワーク一貫性を保ちます。不安定な軌道は説得攻撃を受けやすさが1.29倍になる(p=0.015)。表現レベルでは、線形プローブがフレームワーク特異的エンコーディングをモデル固有の層へ局在させる(Llama-3.3-70Bの層63/81、Qwen2.5-72Bの層17/81)、訓練データセットの事前ベースラインよりKLダイバージェンスを13.8--22.6%低減します。軽量な活性化ステアリングはフレームワーク統合パターンを調整し(6.7--8.9%のドリフト削減)、安定性と精度の関係を増幅します。さらに、Moral Representation Consistency (MRC) 指標を提案します。この指標はLLMのコヒーレンス評価と強く相関します(r=0.715、p<0.0001)。この指標の基になるフレームワークの寄与は人間の注釈者によって検証されており(平均コサイン類似度 = 0.859)。
大規模言語モデルにおける道徳的推論の軌跡の理解:プロービングに基づく説明可能性へ
arXiv cs.CL / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は『道徳的推論の軌跡』として、巨大言語モデルの中間推論過程における倫理的フレームワークの呼び出しの連鎖を導入し、それらを6つのモデルと3つのベンチマークにわたって分析している。
- 体系的な多フレームワークによる検討を見出し、連続するステップの55.4–57.7%がフレームワークの切替を伴い、軌跡のうち16.4–17.8%のみがフレームワークの一貫性を保っていた。
- 不安定な軌跡は説得攻撃を受けやすく、1.29倍脆弱である(p=0.015)。表現レベルのプローブは、フレームワーク特有のエンコーディングがモデル依存の層に局在していることを示し(例:Llama-3.3-70Bは層63/81、Qwen2.5-72Bは層17/81)、訓練データセットの事前ベースラインよりKLダイバージェンスを13.8〜22.6%低減させる。
- 軽量な活性化誘導は、フレームワーク統合のドリフトを6.7–8.9%低減し、安定性と精度の関係を明確化する一方で、道徳的表現一貫性(MRC)という新指標を導入する。MRCは一貫性評価と相関し(r=0.715, p<0.0001)、人間の注釈者によって検証され、平均コサイン類似度は0.859である。