Abstract
大規模言語モデルの活性化に対して学習された疎オートエンコーダ(SAE)は、人間が解釈できる概念への対応付けを可能にする何千もの特徴量を出力します。これらの特徴量を分析するための現在の実務は主に、最大活性を示す例を調べること、個々の特徴量を手作業でブラウズすること、または興味のある概念に対してセマンティック検索を行うことに依存しており、概念の探索的な発見を大規模に行うことが難しくなっています。本論文では、SAEの特徴量を事後的に探索するためのスケーラブルなインタラクティブシステムであるConcept Explorerを提示します。このシステムは、階層的な近傍埋め込みを用いて概念の説明を整理します。提案手法では、SAE特徴量埋め込み上に多解像度のマニフォールドを構築し、大まかな概念クラスタからより細かな近傍へと、段階的にナビゲーションできるようにします。これにより、概念の発見、比較、そして概念間の関係性の分析を支援します。Concept Explorerの有用性を、SmolLM2から抽出したSAE特徴量に対して示します。そこでは、首尾一貫した高レベルの構造、有意義なサブクラスタ、そして既存のワークフローでは特定しづらい特徴的な稀少な概念が明らかになります。