要旨: シミュレーションから現実へのギャップ(sim2real)は、ラベル付きの実世界データが不足しているため依然として難しい問題です。既存の拡散ベースのアプローチは、非構造化プロンプトや統計的整合性に依存しており、画像を現実らしく見せる構造化要因を捉えていません。我々は オントロジーガイド付き拡散(OGD)を紹介します。これはニューロー・シンボリックのゼロショット sim2real 画像翻訳フレームワークで、現実性を構造化された知識として表現します。OGD は現実性を、照明や材質特性などの解釈可能な特徴のオントロジーに分解し、それらの関係を知識グラフにエンコードします。合成画像から、OGD は特徴の活性化を推定し、グラフニューラルネットワークを用いてグローバル埋め込みを生成します。並行して、シンボリックプランナーはオントロジーの特徴を用いて、現実性のギャップを縮小するために必要な一貫した視覚編集の連続を計算します。グラフ埋め込みは、クロスアテンションを介して事前学習済みの指示誘導拡散モデルを条件付けし、計画された編集は構造化された指示プロンプトに変換されます。ベンチマーク全体で、私たちのグラフベースの埋め込みは基準手法より現実画像と合成画像をよりよく区別し、OGD は sim2real 画像翻訳において最先端の拡散手法を上回ります。総じて、現実性の構造を明示的にエンコードすることは、解釈可能でデータ効率的かつ一般化可能なゼロショットの sim2real 転送を実現することを示しています。
オントロジー指向拡散によるゼロショット視覚データの sim2real 転送
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Ontology-Guided Diffusion(OGD)を提案する。OGD は、現実性をオントロジーと知識グラフを介して構造化された知識として表現する、ニューシンボリックなゼロショットの sim2real 画像翻訳フレームワークである。
- OGD は現実性を解釈可能な特性(例:照明や材料特性)に分解し、グラフニューラルネットワークを用いてグローバル埋め込みを生成し、クロスアテンションを介して事前学習済みの拡散モデルを条件付ける。
- シンボリックプランナーはオントロジーの特性を視覚的編集の連続へ翻訳し、拡散過程を現実性のギャップを縮小させる方向へ導く構造化された指示プロンプトを可能にする。
- ベンチマーク全体で、OGD は実画像と合成画像をベースラインよりもより正確に識別し、sim2real 転送において最先端の性能を達成し、データ効率と解釈性を示す。
- 本研究は、現実性の構造を明示的にエンコードすることが、視覚合成へのより広い適用性を持つ一般化可能なゼロショットの sim2real 移行を実現できることを示す。
