SHIFT:フロートランスフォーマーにおける潜在的な中間表現の制御

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、DiT(Diffusion Transformer)モデル向けの、軽量な推論時フレームワーク「SHIFT」を提案する。これは中間活性を操作することで、望ましくない視覚的概念を除去する。
  • SHIFTはステアリングベクトルを学習し、選択した層および時刻(タイムステップ)に対して動的に適用することで、特定の概念を抑制しつつ、プロンプトに関連する内容と画像品質を保持する。
  • この手法は、時間のかかる再学習を行わない(再学習不要)ことを特徴としており、多様なプロンプトや目標に対して生成を効果的に制御することを目指す。
  • 抑制にとどまらず、SHIFTは出力を所望のスタイル領域へ誘導したり、ターゲットの物体の追加/変更につながるように画像をバイアスしたりできることが示され、より広い制御可能性が示唆される。
  • このアプローチは、大規模言語モデルで用いられるアクティベーション・ステアリング手法に着想を得ており、その考え方を拡散/DiT生成ワークフローへと移植している。

要旨: 拡散モデルは、高忠実度の画像生成における主要なアプローチとなっています。とりわけ、近年のDiTベースの拡散モデルは、高品質なサンプルを生成しつつ、プロンプトへの強い追従を実現しています。本研究では、巨大言語モデルにおけるアクティベーション・ステアリングに着想を得た、推論時の中間活性を狙って操作することで、DiT拡散モデルにおける概念除去を行うための、シンプルでありながら効果的かつ軽量な枠組みSHIFTを提案します。SHIFTは、選択した層およびタイムステップに対して動的に適用されるステアリング・ベクトルを学習し、プロンプトに含まれる残りの内容および画像全体の品質を維持しながら、望ましくない視覚概念を抑制します。抑制にとどまらず、同じ仕組みにより生成結果を所望の\emph{スタイル領域}へとシフトしたり、特定の対象物を追加したり変更したりする方向へサンプルをバイアスしたりすることもできます。さらにSHIFTが、時間のかかる再学習なしに、多様なプロンプトと目標にわたってDiT生成を効果的かつ柔軟に制御できることを示します。