概要: テキストから画像を生成するモデルは、位置合わせ(アラインメント)の問題に悩まされます。生成された画像が、テキストプロンプトに含まれる対象物や関係を正確に捉えられないのです。従来の研究では、拡散過程を改良することで位置合わせを改善しようとする取り組みが中心であり、拡散を導くテキストエンコーダの役割は無視されてきました。本研究では、テキストから画像へのプロンプトにおいて、意味情報がトークン表現にどのように分布しているのかを調査します。分析は2つのレベルで行います: (1) アイテム内表現—個々のトークンが、その語彙項目(すなわち、単一の概念を伝える語または表現)を表しているかどうか、(2) アイテム間の相互作用—異なる語彙項目のトークン間で情報がどのように流れるかどうかです。符号化のパターンを明らかにするためにパッチング手法を用い、その結果、情報は通常、そのアイテムのトークンのうち1つか2つにだけ集中していることが分かります。例えば、「San Francisco's Golden Gate Bridge(サンフランシスコのゴールデンゲートブリッジ)」というアイテムでは、「Gate」というトークンが表現全体を十分に捉えており、他のトークンは実質的に破棄しても構いませんでした。語彙項目はまた、互いに孤立した状態を保つ傾向があります。たとえば、「a green dog(緑の犬)」というプロンプトでは、「dog」というトークンは「green」に関する視覚情報をまったく符号化していません。しかし、場合によっては、あるアイテムが別のアイテムの表現に影響し合い、その結果、誤解が生じることがあります。たとえば「a pool by a table(テーブルのそばのプール)」というプロンプトでは、「pool」というトークンは、文脈化の後「pool table(プール台)」を表すようになります。本研究の知見は、画像生成におけるトークンレベルの符号化の決定的な役割を示し、符号化段階における単純な介入が位置合わせと生成品質を大きく改善しうることを実証します。
フォロー・ザ・フロー:テキストから画像生成モデルにおけるテキストトークン間の情報フロー
arXiv cs.CL / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、テキストから画像生成におけるアライメント問題に取り組み、従来は拡散プロセスの改善に偏ってテキストエンコーダが生成をどのように導くかを見落としてきたと主張しています。
- プロンプト内で、語彙アイテムごとの表現(単一概念を担う単語や表現としてのトークン)と、異なる語彙アイテム間の相互作用(情報がトークン間で流れるか)を、2つの観点で分析します。
- パッチング手法を用いることで、語彙アイテムの意味情報は多くの場合1〜2個のトークンに集中しており、たとえば「San Francisco's Golden Gate Bridge」では「Gate」が表現全体を十分に捉えて他のトークンは実質的に不要になり得ることを示します。
- 「a green dog」のように語彙アイテムが互いに独立しがちなケース(「dog」が「green」の視覚情報を持たない)もある一方で、「a pool by a table」のように文脈によって「pool」が「pool table」を想起させるなど、相互に影響して誤解を招く場合もあると報告しています。
- これらの結果は、テキストエンコーディング/トークン段階での単純な介入が、拡散段階だけの変更に比べてもアライメントと生成品質を大きく改善し得ることを示唆しています。



