要旨: テキストから画像への拡散モデルは目覚ましい生成能力を達成してきましたが、複雑なテキスト指示を合成レイアウトへ正確に対応付けることは、いまだ継続中の課題です。これらのモデルでは、最初のガウス雑音がマクロなレイアウトを決定する重要な構造的な種として機能します。近年のオンライン最適化および探索手法は、テキスト画像の整合性を高めるために、この雑音を洗練しようとしています。しかし、制約のないユークリッド勾配上昇に依存すると、数学的に潜在ノルムが不当に膨張し、通常のガウス事前分布が破壊され、その結果、色の過飽和のような深刻な視覚アーティファクトを引き起こします。さらに、これらの手法は非効率な意味的ルーティングに悩まされ、外部の代理(プロキシ)モデルによる「報酬ハッキング」の罠に容易に陥ります。これらの絡み合ったボトルネックに対処するために、本研究では、雑音の初期化を意味駆動の最適化として再定義し、リーマン超球面の内部に厳密に閉じ込める、ゼロショットの枠組み「Oracle Noise」を提案します。複雑な外部パーサーに頼るのではなく、プロンプト中で最も影響の大きい構造的語(structural words)を直接同定することで、最適化エネルギーを効率的にルーティングします。雑音を球面上の経路に沿って厳密に更新することで、数学的に元のガウス分布を保持します。この幾何学的制約によりノルムの膨張が解消され、急速な収束のための大胆なステップサイズを可能にします。大規模な実験により、Oracle Noiseが意味整合を大幅に加速し、ブラックボックスモデルなしで優れた美観を達成することを示します。ユークリッドに起因する劣化を完全に緩和し、人間の嗜好メトリクス(例: HPSv2、ImageReward)、意味整合(CLIPスコア)、およびサンプル多様性において、厳密な2秒の最適化予算のもとで先端(SOTA)の性能を確立します。
Oracle Noise:解釈可能な潜在最適化のためのより高速な意味的球面アラインメント
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストから画像を生成する拡散モデルにおける複雑なプロンプトと生成レイアウトの整合(アラインメント)が難しい点に取り組み、初期のガウスノイズがマクロな構造を大きく左右することを指摘している。
- 従来のオンライン最適化手法は制約のないユークリッド空間での勾配上昇に依存しており、潜在ノルムが膨張して元のガウス事前分布が壊れ、その結果として色の過飽和などの視覚的アーティファクトが生じ得る。
- 著者らは「Oracle Noise」を提案し、ノイズ初期化/最適化を、意味に基づく最適化として再定式化しつつ、リーマン球面(Riemannian hypersphere)上に厳密に制約することでガウス分布を保持し、ノルム膨張を回避している。
- 外部パーサーに頼らず、プロンプト中の「最も影響の大きい構造的な単語」を直接見つけることで、最適化のエネルギー配分を効率化し、意味的ルーティングの非効率や代理モデルによる「報酬ハッキング」を抑える。
- 実験では、Oracle Noiseが意味的アラインメントを大幅に高速化し、美的品質も向上させること、さらに複数の人間嗜好・整合・多様性指標で厳密な2秒の最適化予算内において最先端性能を達成することが示され、ブラックボックスの代理モデルなしで実現できることも報告されている。




