スパースオートエンコーダの特徴から作るドメインフィルタリング済み知識グラフ

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模なスパースオートエンコーダ(SAE)特徴のインベントリを、ドメインに特化して整理された知識へ変換する手法を提案し、弱く根拠づけられた汎用的特徴を除外します。
  • コントラストiveな活性化と多段階のフィルタリング手順によって、対象ドメインのための厳密な概念ユニバース(概念集合)を構築し、概念の混ざりを抑えます。
  • フィルタリング後の特徴集合から、対応付けられた2つのグラフ視点を作成します。1つは複数粒度でのコーパスレベルの共起グラフ、もう1つは疎な潜在経路を介してソース層とターゲット層の特徴を結ぶトランスコーダベースのメカニズムグラフです。
  • 自動でエッジにラベル付けすることで、未ラベルのレイアウトではなく読みやすい知識グラフに変換し、生物教科書のケーススタディで章・節レベルの構造の復元や、トピック間をつなぐ概念の発見を示します。
  • 本手法は、SAEの解釈可能性を単なる特徴リストから、モデル内部の知識を俯瞰できるグローバルな地図へと再構成し、推論の忠実性(faithfulness)の監査を支えることを目指します。

要旨: スパース・オートエンコーダ(SAE)は言語モデルから数百万もの解釈可能な特徴を抽出するが、平坦な特徴の目録はそれ自体ではあまり有用ではない。領域の概念が、一般的で根拠の弱い特徴と混ざり合い、関連するアイデアは多数のユニットに散らばり、特徴同士の関係を理解する方法がない。本研究ではまず、大規模なSAEの目録から、コントラスト活性と多段階のフィルタリング手順を用いて、厳密な領域固有の概念宇宙を構築する。次に、フィルタリングされた集合上に2つの整合したグラフの見え方を構築する。1つは、コーパス全体の概念構造のための共起グラフであり、多段階の粒度で整理される。もう1つは、ソース層とターゲット層の特徴を、スパースな潜在経路を通じて結びつける、トランスコーダベースのメカニズム・グラフである。自動化された辺のラベリングによって、これらのグラフの見え方は、ラベルのない配置ではなく、読みやすい知識グラフへと変換される。生物学の教科書に関する事例研究では、これらのグラフは章・節の階層レベルで首尾一貫した構造を復元し、隣接するトピックをつなぐ概念を明らかにし、何千もの特徴を含む雑多な文レベルの活性を、モデルの局所的な活性を示すコンパクトで読みやすいビューへと変換する。以上をまとめると、平坦なSAEの目録を、特徴レベルの解釈可能性をモデル知識のグローバルな地図へと変換する内部知識グラフとして捉え直し、推論の忠実性(faithfulness)の監査を可能にする。