大規模言語モデルにおける道徳的推論の軌跡の理解：プロービングに基づく説明可能性へ

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は『道徳的推論の軌跡』として、巨大言語モデルの中間推論過程における倫理的フレームワークの呼び出しの連鎖を導入し、それらを6つのモデルと3つのベンチマークにわたって分析している。
体系的な多フレームワークによる検討を見出し、連続するステップの55.4–57.7%がフレームワークの切替を伴い、軌跡のうち16.4–17.8%のみがフレームワークの一貫性を保っていた。
不安定な軌跡は説得攻撃を受けやすく、1.29倍脆弱である（p=0.015）。表現レベルのプローブは、フレームワーク特有のエンコーディングがモデル依存の層に局在していることを示し（例：Llama-3.3-70Bは層63/81、Qwen2.5-72Bは層17/81）、訓練データセットの事前ベースラインよりKLダイバージェンスを13.8〜22.6%低減させる。
軽量な活性化誘導は、フレームワーク統合のドリフトを6.7–8.9%低減し、安定性と精度の関係を明確化する一方で、道徳的表現一貫性（MRC）という新指標を導入する。MRCは一貫性評価と相関し（r=0.715, p<0.0001）、人間の注釈者によって検証され、平均コサイン類似度は0.859である。

要約: 大規模言語モデル（LLMs）は道徳的に敏感な意思決定にますます関与していますが、推論の各ステップにわたって倫理的フレームワークをどのように組織するかは十分には検討されていません。私たちは \\textit{倫理的推論軌跡}、中間の推論ステップにわたる倫理的フレームワークの呼び出しの連続を導入し、それらのダイナミクスを6つのモデルと3つのベンチマークにわたって分析します。私たちは道徳的推論は系統的な複数フレームワークによる熟慮を含むことを見いだしました：連続するステップの55.4--57.7%がフレームワークの切替を伴い、軌道の16.4--17.8%のみがフレームワーク一貫性を保ちます。不安定な軌道は説得攻撃を受けやすさが1.29倍になる（p=0.015）。表現レベルでは、線形プローブがフレームワーク特異的エンコーディングをモデル固有の層へ局在させる（Llama-3.3-70Bの層63/81、Qwen2.5-72Bの層17/81）、訓練データセットの事前ベースラインよりKLダイバージェンスを13.8--22.6%低減します。軽量な活性化ステアリングはフレームワーク統合パターンを調整し（6.7--8.9%のドリフト削減）、安定性と精度の関係を増幅します。さらに、Moral Representation Consistency (MRC) 指標を提案します。この指標はLLMのコヒーレンス評価と強く相関します（r=0.715、p<0.0001）。この指標の基になるフレームワークの寄与は人間の注釈者によって検証されており（平均コサイン類似度 = 0.859）。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

大規模言語モデルにおける道徳的推論の軌跡の理解：プロービングに基づく説明可能性へ

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer