Qwen-Scope:Qwen 3.5 モデル向けの公式スパース・オートエンコーダ(SAE)

Reddit r/LocalLLaMA / 2026/4/30

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • Qwen チームは、Qwen 3.5 モデル(2B から 35B MoE)における残差ストリームの解釈可能な内部特徴を対応づける、スパース・オートエンコーダ(SAE)のオープンなコレクション「Qwen-Scope」を公開しました。
  • このリリースでは、モデル概念の「辞書(dictionary)」表示(例:拒否、法律領域の言語、Python コード、スタイルに関連する特徴など)と、特定の入力でどの特徴 ID が活性化するかを特定するためのツールが提供されます。
  • Qwen-Scope により、「外科的アブレーション」(特定の特徴を抑制すること)や、機能スティアリング(生成中に特定の概念を増幅したり強制したりすること)、さらに予期しない言語切り替えのような振る舞いのデバッグといったアプリケーションが可能になります。
  • また、学習データセットやファインチューニングの分析にも対応しており、学習例が実際に意図した内部特徴を引き起こしているかを確認できます。
  • チームは、安全フィルタを取り除く、あるいはその他の方法でモデルの能力に干渉するためにツールを使うことを思いとどまらせています。たとえ、技術的にはそれが可能であり、その機能の制御によって実現できてしまうとしてもです。
Qwen-Scope: Qwen 3.5 モデル向けの公式 Sparse Autoencoders (SAEs)

Qwen チームがQwen-Scopeを公開しました。これは、Qwen 3.5ファミリー(2B〜35B MoE)向けのSparse Autoencoders(SAEs)のコレクションです。全レイヤーにわたって残差ストリーム上の内部特徴をマッピングしています。

これは正確には何ですか?モデル内部の概念の「辞書」と考えてください。生の数値を見る代わりに、「法的な説明」「Pythonコード」「拒否」といった概念を表す、特定の「特徴(feature)」を確認できます。

これで何ができますか?

  1. 外科的なアブレーション(Surgical Abliteration):拒否/道徳づけに対応する正確な特徴IDを見つけて抑制できます。これは標準的な「平均差(mean difference)」手法よりもはるかに精密で、推論をより保ちやすくなります。注:Qwenチームはライセンスの中で、安全フィルタを取り除いたり「モデルの能力に干渉する」ためにこれらのツールを使うことを明確に推奨していませんが、技術的には、まさにこれらのSAEsがそれを可能にしているものです。
  2. 特徴のステアリング(Feature Steering):生成中に特定の概念を「強制活性化」できます(たとえば、モデルをより技術的にしたり、特定のスタイルを強制したり)。特徴の方向性を隠れ状態に注入することで実現します。
  3. モデルのデバッグ:予期しない言語の切り替えや拒否など、どのトークンが特定の内部方向性を引き起こすかを特定できます。
  4. データセット分析:微調整データをスキャンして、意図した内部特徴が実際に活性化されているか確認できます。

実際の仕組み(Spaceデモの例):

  • 診断:モデルの挙動が変だとします。たとえば英語で尋ねたのに、突然中国語が混ざり始めるといった場合です。そのときFeature Comparison(特徴の比較)タブを使えます。どのFeature IDがスパイクしたかを正確に表示します。たとえば「Feature #6159」(中国語)が過剰に活性化されていることを示すヒートマップが見られます。
  • 制御(ステアリング):IDが分かれば、Feature Steeringタブで、その特定の特徴を「ミュート」したり、他の特徴(たとえば「古典的な文学スタイル」)を「増幅」したりできます。プロンプトでモデルと格闘するのではなく、文字どおりモデルの頭の中のつまみを回しているようなものです。

Space: https://huggingface.co/spaces/Qwen/Qwen-Scope

技術レポート: https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf

submitted by /u/MadPelmewka
[link] [comments]