要約: 私たちは、350億パラメータのMixture-of-ExpertsモデルであるQwen 3.5-35B-A3Bの残差ストリーム上で9つのスパースオートエンコーダ(SAEs)を訓練し、ハイブリッドGatedDeltaNet/attentionアーキテクチャを備えたこのモデルを用いて、5つの主体性を持つ行動特性を識別し、導く。私たちの方法は、SAE潜在活性化に対して線形プローブを訓練し、次にプローブ重みをSAEデコーダを通して再投影して、モデルのネイティブな活性化空間で連続的なステアリングベクトルを得る。これはSAEのトップ-k離散化を回避し、再訓練なしに推論時に細かな行動介入を可能にする。1,800のエージェントロールアウト(50のシナリオ×36条件)を横断して、乗数2での自律性ステアリングは Cohen's d = 1.01(p < 0.0001)を達成し、推定は、モデルがユーザーに助けを求める回数を78%の時点から、コードを自動実行しウェブを検索する方向へ積極的に移行させた。特性横断分析は、全5つのステアリングベクトルが主に1つの支配的なエージェンシー軸(独立して行動する傾向 versus ユーザーに従う傾向)を変調し、性質ごとの効果はツールタイプの構成と用量反応の形状における二次的変調としてのみ現れることを示している。ツール使用ベクトルは挙動を導く(d = 0.39);リスクキャリブレーションベクトルは抑制のみを生む。さらに、自己回帰デコード中のみのステアリングには影響がゼロであることも示しており(p > 0.35)、行動的コミットメントがGatedDeltaNetアーキテクチャのプリフィル時に計算されるという因果的な証拠を提供する。
35B MoE言語モデルにおけるSAEデコード済みプローブベクトルによる行動ステアリング: 5つの特性ではなく1つの主体性軸
arXiv cs.LG / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 著者らは、35B MoEモデルQwen 3.5-35B-A3Bの残差ストリーム上に、GatedDeltaNetとアテンションのハイブリッドアーキテクチャを用いて9つのスパースオートエンコーダを訓練し、5つの主体性特性を特定し、誘導する。
- 彼らはSAE潜在表現に対して線形プローブを適用し、SAEデコーダを介してプローブ重みを再構成することで、モデルのネイティブ活性化空間で連続的なステアリングベクトルを生成し、トップ-kの離散化を回避し、再訓練なしで推論時の行動介入を可能にしている。
- 50のシナリオと36の条件で実施された1,800回のエージェントロールアウトにおいて、乗数を2倍とした自律性ステアリングはCohenのdを1.01(p < 0.0001)と示し、モデルをユーザーへ助けを求める段階からコードの実行とウェブ検索を積極的に行う段階へ移行させた。
- 横断的特性分析は、全ての5つのステアリングベクトルが主に1つの支配的な主体性軸—独立して行動するかユーザーに従うかの傾向—を調整し、特性特有の効果はツールタイプの構成と用量反応の形状における二次的変調として現れることを示している。
- ツール使用ベクトルは中等度の効果(d = 0.39)を示す一方、リスク調整ベクトルは主に行動を抑制し、自己回帰デコード中のステアリングは影響を及ぼさず(p > 0.35)、行動的コミットメントはGatedDeltaNetアーキテクチャのプリフィル時に計算されることを示している。


