| Qwen チームがQwen-Scopeを公開しました。これは、Qwen 3.5ファミリー(2B〜35B MoE)向けのSparse Autoencoders(SAEs)のコレクションです。全レイヤーにわたって残差ストリーム上の内部特徴をマッピングしています。 これは正確には何ですか?モデル内部の概念の「辞書」と考えてください。生の数値を見る代わりに、「法的な説明」「Pythonコード」「拒否」といった概念を表す、特定の「特徴(feature)」を確認できます。 これで何ができますか?
実際の仕組み(Spaceデモの例):
Space: https://huggingface.co/spaces/Qwen/Qwen-Scope 技術レポート: https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf [link] [comments] |
Qwen-Scope:Qwen 3.5 モデル向けの公式スパース・オートエンコーダ(SAE)
Reddit r/LocalLLaMA / 2026/4/30
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- Qwen チームは、Qwen 3.5 モデル(2B から 35B MoE)における残差ストリームの解釈可能な内部特徴を対応づける、スパース・オートエンコーダ(SAE)のオープンなコレクション「Qwen-Scope」を公開しました。
- このリリースでは、モデル概念の「辞書(dictionary)」表示(例:拒否、法律領域の言語、Python コード、スタイルに関連する特徴など)と、特定の入力でどの特徴 ID が活性化するかを特定するためのツールが提供されます。
- Qwen-Scope により、「外科的アブレーション」(特定の特徴を抑制すること)や、機能スティアリング(生成中に特定の概念を増幅したり強制したりすること)、さらに予期しない言語切り替えのような振る舞いのデバッグといったアプリケーションが可能になります。
- また、学習データセットやファインチューニングの分析にも対応しており、学習例が実際に意図した内部特徴を引き起こしているかを確認できます。
- チームは、安全フィルタを取り除く、あるいはその他の方法でモデルの能力に干渉するためにツールを使うことを思いとどまらせています。たとえ、技術的にはそれが可能であり、その機能の制御によって実現できてしまうとしてもです。
