ATHENA: テスト時の適応的ステアリングによる拡散モデルのオブジェクト数忠実度向上

arXiv cs.CV / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ATHENAは、再訓練やモデルアーキテクチャの変更を必要とせず、テキストから画像への拡散モデルにおけるオブジェクト数の忠実度を向上させるモデル非依存のテスト時適応ステアリングフレームワークを提案する。
サンプリング中の中間表現を活用してカウントを推定し、デノイズの初期段階でカウントを意識したノイズ補正を適用して、構造的エラーが修正困難になる前に生成の軌道を誘導する。
静的なプロンプトベースのステアリングから、動的に調整されるカウント対応の制御まで含む3つの派生手法を提示し、計算量とより高い数値精度のバランスを取る。
標準ベンチマークと新規データセットでの実験は、特に高いターゲットカウントでカウント忠実度の改善を示し、複数の拡散バックボーンにおいて精度と実行時間の有利なトレードオフを維持する。

要旨: テキストから画像への拡散モデルは高い視覚的忠実度を達成しますが、プロンプトが明示的なオブジェクト数を指定すると、数値制御において予想外にも体系的な失敗を示します。この制限に対処するため、モデルに依存しないテスト時適応ステアリングフレームワークATHENAを導入します。これにより、モデルアーキテクチャを変更したり再訓練を必要とせずに、オブジェクト数の忠実度を向上させます。 ATHENAはサンプリング中の中間表現を活用してオブジェクト数を推定し、デノイジング過程の早い段階でカウントに応じたノイズ補正を適用して、生成の軌道を構造的な誤差が修正が難しくなる前に誘導します。3つの段階的に高度なATHENAの変種を提示します。これらは、静的なプロンプトベースのステアリングから、動的に調整されるカウント対応制御へと展開し、追加の計算と引き換えに数値的精度を向上させます。確立されたベンチマークと、新しく視覚的・意味論的に複雑なデータセットでの実験は、ATHENAが一貫してオブジェクト数の忠実度を改善し、特に高いターゲット数において顕著であることを示しています。一方、複数の拡散バックボーンにわたって、精度と実行時間の有利なトレードオフを維持しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

ATHENA: テスト時の適応的ステアリングによる拡散モデルのオブジェクト数忠実度向上

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer