拡散ノイズにおける物理の探索

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、事前学習済みの動画拡散モデルが、中間のノイズ除去表現に物理的妥当性と相関するような信号を含んでいるかどうかを検討する。
  • その結果、物理的に妥当な動画とそうでない動画は、複数のノイズレベルにわたって中間層の特徴空間上で部分的に分離可能であることが分かる。この分離は、視覚的な品質や生成器の同一性だけでは十分に説明できない。
  • 以上の知見に基づき、著者らは「逐次的軌道選択(progressive trajectory selection)」を提案する。これは、推論時に数個の中間チェックポイントで複数のノイズ除去軌道をスコアリングし、軽量な物理検証器(physics verifier)を用いて選別する手法である。
  • 検証器は拡散トランスフォーマの凍結済み特徴を用いて学習されるため、計算量を削減する目的でスコアの低い軌道を早期に枝刈りできる。
  • PhyGenBench に対する実験では、物理的整合性の向上と推論コストの削減が確認され、より少ないノイズ除去ステップ数で Best-of-K サンプリングと同等の結果が得られる。

Abstract

ビデオ拡散モデルは、物理的妥当性を予測できる信号をエンコードしているのでしょうか? 本研究では、事前学習済みの拡散トランスフォーマ(DiT)の中間ノイズ除去表現を調べ、その結果、物理的に妥当な動画と妥当でない動画は、ノイズレベルをまたいで中間層の特徴空間で部分的に分離可能であることを見いだしました。この分離可能性は、視覚品質やジェネレータの同一性だけでは完全には説明できず、凍結したDiT特徴に回復可能な物理関連の手がかりが含まれていることを示唆します。この観察を活用し、推論時の戦略である「段階的軌道選択」を提案します。これは、凍結した特徴で学習した軽量な物理検証器を用いて、いくつかの中間チェックポイントで並列なノイズ除去軌道をスコアリングし、低スコアの候補を早期に刈り込みます。PhyGenBench に対する大規模な実験により、本手法は推論コストを抑えつつ物理整合性を向上させ、実質的に少ないノイズ除去ステップで Best-of-K サンプリングと同等の結果を達成することを示します。
広告