SHIFT：フロートランスフォーマーにおける潜在的な中間表現の制御

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、DiT（Diffusion Transformer）モデル向けの、軽量な推論時フレームワーク「SHIFT」を提案する。これは中間活性を操作することで、望ましくない視覚的概念を除去する。
SHIFTはステアリングベクトルを学習し、選択した層および時刻（タイムステップ）に対して動的に適用することで、特定の概念を抑制しつつ、プロンプトに関連する内容と画像品質を保持する。
この手法は、時間のかかる再学習を行わない（再学習不要）ことを特徴としており、多様なプロンプトや目標に対して生成を効果的に制御することを目指す。
抑制にとどまらず、SHIFTは出力を所望のスタイル領域へ誘導したり、ターゲットの物体の追加／変更につながるように画像をバイアスしたりできることが示され、より広い制御可能性が示唆される。
このアプローチは、大規模言語モデルで用いられるアクティベーション・ステアリング手法に着想を得ており、その考え方を拡散／DiT生成ワークフローへと移植している。

要旨: 拡散モデルは、高忠実度の画像生成における主要なアプローチとなっています。とりわけ、近年のDiTベースの拡散モデルは、高品質なサンプルを生成しつつ、プロンプトへの強い追従を実現しています。本研究では、巨大言語モデルにおけるアクティベーション・ステアリングに着想を得た、推論時の中間活性を狙って操作することで、DiT拡散モデルにおける概念除去を行うための、シンプルでありながら効果的かつ軽量な枠組みSHIFTを提案します。SHIFTは、選択した層およびタイムステップに対して動的に適用されるステアリング・ベクトルを学習し、プロンプトに含まれる残りの内容および画像全体の品質を維持しながら、望ましくない視覚概念を抑制します。抑制にとどまらず、同じ仕組みにより生成結果を所望の\emph{スタイル領域}へとシフトしたり、特定の対象物を追加したり変更したりする方向へサンプルをバイアスしたりすることもできます。さらにSHIFTが、時間のかかる再学習なしに、多様なプロンプトと目標にわたってDiT生成を効果的かつ柔軟に制御できることを示します。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

SHIFT：フロートランスフォーマーにおける潜在的な中間表現の制御

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化