アライメント回路の経路：言語モデルにおけるローカライズ、スケール、制御の方法

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、アライメント学習済みの言語モデルにおける反復的な疎（スパース）ルーティング機構を報告する。ゲート注意ヘッドが特定の内容を検出し、その結果として下流の増幅（アンプリファ）ヘッドを作動させることで、拒否行動を強化する。
著者らは、「政治的検閲」と「安全上の拒否」を“自然実験”として用い、6つの研究機関からの9モデルにまたがってこの回路を追跡し、120個のプロンプト対で検証する。必要性／十分性に基づくテストや、リサンプリング下での頑健性によって裏付ける。
スケーリング実験から、モデルが大きくなってもルーティング構造が検出可能で機能し続けることが示される。さらに、アブレーションにより最大17倍弱めても、ルーティングの痕跡は維持される。
検出層（検出レイヤー）の信号を変調することで、著者らは政策強度を連続的に制御できることを示す。すなわち、ハードな拒否からステアリング（誘導）、そして事実遵守へと段階的に調整可能であり、ルーティングの閾値はトピックに依存する。
回路の分析は、意図認識と政策ルーティングの間に分離があることを示唆する。入力が暗号化（シファー符号化）されると、ルーティングへの寄与は崩壊し、モデルは拒否ではなくパズル解法を実行する。その結果、事前学習知識と事後学習による政策結び付けでは、頑健性の特性が異なる可能性が示される。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/7Dailyインサイトを見る →

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

アライメント回路の経路：言語モデルにおけるローカライズ、スケール、制御の方法

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透