DreamReader: テキストから画像へのモデルの解釈性ツールキット

arXiv cs.LG / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • DreamReaderは、拡散モデルの解釈性を時刻ステップとモジュール全体にわたって統一的に扱う、モデル非依存のフレームワークを提供し、既存のプローブ手法を統合します。
  • 本ツールキットは、3つの新規介入プリミティブを導入します:サブスペース制約付き内部適応のための表現ファインチューニング(LoReFT)、MLPプローブを用いた分類器ガイド付き勾配操作、表現の転移性を研究するためのコンポーネントレベルのモデル間マッピング。
  • 本ツールキットは、活性化の継ぎ目結合(activation stitching)とターゲット活性化操作を含む、LLM解釈性の手法を活用して、テキストツー画像モデルに対する軽量のホワイトボックス介入を可能にします。
  • DreamReaderは、拡散モデルの解釈性とクロスモデル分析の研究を進めるため、オープンソースのツールキットとして公開されました。

要旨: テキストから画像への拡散モデル(T2I)の急速な普及にもかかわらず、因果および表現レベルの分析は断片的で、主に孤立した探索手法に限定されています。このギャップに対処するため、DreamReaderを紹介します。これは、拡散の解釈可能性を、活性化抽出、因果パッチング、構造化アブレーション、そしてモジュールとタイムステップを横断する活性化の誘導を組み合わせ可能な表現操作として形式化する統一フレームワークです。 DreamReaderは、拡散アーキテクチャ全体に対して体系的な分析と介入を可能にする、モデルに依存しない抽象化レイヤを提供します。 既存の手法を統合するだけでなく、DreamReaderは拡散モデル向けの3つの新しい介入プリミティブを導入します: (1) サブスペース制約付き内部適応のための表現微調整(LoReFT); (2) 活性化に基づいて訓練されたMLPプローブを用いた分類器主導の勾配誘導; そして (3) 表現のモダリティ間転移性を体系的に研究するためのコンポーネントレベルのクロスモデルマッピング。 これらのメカニズムにより、LLMの解釈可能性技術から着想を得て、T2Iモデルに対して軽量なホワイトボックス介入を行うことができます。
DreamReaderは、2つのモデル間での活性化の継ぎ目(ステッチ)を行い、LoReFTを適用して複数の活性化ユニットを操作することで、生成画像にターゲット概念を信頼性高く注入することを示す、制御された実験を通じて実証します。 実験は宣言的に指定され、再現性のある大規模分析を可能にする制御されたバッチ処理パイプラインで実行されます。 複数のケーススタディにおいて、言語モデルの解釈可能性から適用された手法が、拡散モデルにおいて有望で制御可能な介入を生み出すことを示しています。 DreamReaderは、T2Iの解釈可能性に関する研究を前進させるためのオープンソースのツールキットとして公開されます。