広告

トリガーを制御させる:効果的なトークン制御のための周波数認識ドロップアウト

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LoRAベースのテキストから画像へのパーソナライズにおいて、単一のトリガートークンが絡み合った表現のため意図した概念を確実に喚起できないという、制御可能性(controllability)の問題を特定している。
  • この問題は、微調整(fine-tuning)中にトリガートークンと周辺のプロンプト文脈が高頻度に共起することに起因し、その結果としてトークンの意味的な独自性が損なわれると述べている。
  • 著者らは、共起分析とカリキュラムに着想を得たスケジューリングを用いて、この絡み合い(entanglement)を低減する、パラメータ不要の正則化手法であるFrequency-Aware Dropout(FAD)を提案する。
  • トークンベースの拡散モデル(Stable Diffusion 1.5、SDXL)および自然言語バックボーン(FLUX、Qwen-Image)にわたる実験により、プロンプト制御性、忠実度、スタイルの精度、そしてユーザーが知覚する品質が向上することを示している。
  • このアプローチは、アーキテクチャの変更や追加パラメータなしで一貫した改善を提供し、計算コストの追加が小さいため容易に導入できることを目指している。

Abstract

Stable Diffusion のようなテキストから画像を生成するモデルは、これまでにないレベルの高忠実度な視覚合成を実現してきました。モデルが進歩するにつれ、生成モデルのパーソナライズ—一般に、専用のトリガートークンを用いた Low-Rank Adaptation(LoRA)によって促進されることが多い—は、重要な研究領域となっています。従来の研究では、新しい概念を表すために単一のトリガートークンで微調整すればよいといった、素朴な仮定がなされていました。しかし、これはしばしば制御性の低下につながり、トリガートークン単体では意図した概念を確実に喚起できないことがあります。本研究では、この問題は微調整中にトリガートークンが周辺の文脈と頻繁に同時出現することに起因し、それらの表現が絡み合ってトークンの意味的な独自性が損なわれるためだと考えます。これを切り離すために、本研究では Frequency-Aware Dropout(FAD)—新しい正則化手法—を提案します。FAD は新たなパラメータを追加することなく、プロンプトの制御性を改善します。FAD は 2 つの主要コンポーネントからなります:共起分析と、カリキュラムに着想を得たスケジューリングです。トークンベースの拡散モデル(SD~1.5 と SDXL)および自然言語に基づくバックボーン(FLUX と Qwen-Image)に対して、定性的および定量的な分析を行った結果、プロンプトの忠実性、スタイルの精密さ、ならびにユーザーが知覚する品質において一貫した改善が示されました。本手法は、ドロップアウトのシンプルでありながら効果的な戦略を提供し、テキストから画像生成における制御性とパーソナライズを高めます。特に、本手法は追加のパラメータやアーキテクチャの変更を導入することなく、これらの改善を達成しており、計算コストの最小限のオーバーヘッドで既存モデルに容易に適用できます。

広告