トリガーを制御させる:効果的なトークン制御のための周波数認識ドロップアウト
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LoRAベースのテキストから画像へのパーソナライズにおいて、単一のトリガートークンが絡み合った表現のため意図した概念を確実に喚起できないという、制御可能性(controllability)の問題を特定している。
- この問題は、微調整(fine-tuning)中にトリガートークンと周辺のプロンプト文脈が高頻度に共起することに起因し、その結果としてトークンの意味的な独自性が損なわれると述べている。
- 著者らは、共起分析とカリキュラムに着想を得たスケジューリングを用いて、この絡み合い(entanglement)を低減する、パラメータ不要の正則化手法であるFrequency-Aware Dropout(FAD)を提案する。
- トークンベースの拡散モデル(Stable Diffusion 1.5、SDXL)および自然言語バックボーン(FLUX、Qwen-Image)にわたる実験により、プロンプト制御性、忠実度、スタイルの精度、そしてユーザーが知覚する品質が向上することを示している。
- このアプローチは、アーキテクチャの変更や追加パラメータなしで一貫した改善を提供し、計算コストの追加が小さいため容易に導入できることを目指している。



