マニフォールド最適ガイダンス: 拡散ガイダンスにおける統一リーマン幾何学的制御の視点

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

MOGは、分類器なしガイダンスにおける幾何学的ミスマッチを特定し、それがサンプリング軌道をデータ多様体から逸脱させる可能性があることを指摘します。
拡散ガイダンスを局所的な最適制御問題として再定式化し、再訓練を要さずに、幾何学を考慮した閉形式のリーマン幾何学的更新を提供し、マニフォールド外のドリフトを修正します。
Auto-MOGは、ガイダンス強度を適応的に調整する動的エネルギーバランシング・スケジュールを導入し、手動ハイパーパラメータ調整の必要性を排除します。
本手法は再訓練を必要とせず、追加の計算オーバーヘッドはほとんど生じません。
広範な検証により、ベースラインと比較して忠実度と整合性が優れていることが示されています。

概要: Classifier-Free Guidance（CFG）は条件付き拡散のデファクトの制御機構として機能しますが、高いガイダンススケールは過飽和、質感アーティファクト、構造崩壊をもたらすことで悪名高いです。これを幾何学的ミスマッチに起因すると捉えます。標準の CFG は周囲空間でユークリッド外挿を行い、サンプリング軌道を高密度データ多様体から意図せず逸脱させます。これを解決するために、局所的な最適制御問題としてガイダンスを再定式化するフレームワーク、マニフォールド最適ガイダンス（MOG）を提案します。MOG は、再訓練を必要とせずにマニフォールド外のドリフトを修正する、閉形式で幾何学を考慮したリーマン幾何学的更新を提供します。この視点を活用して、動的エネルギーバランシング・スケジュールを備え、ガイダンス強度を適応的に校正する Auto-MOG も導入します。これにより、手動のハイパーパラメータ調整の必要性を実質的に排除します。広範な検証により、MOG はベースラインと比較して忠実度と整合性の面で優れていることが示され、追加の計算オーバーヘッドはほとんどありません。

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

マニフォールド最適ガイダンス: 拡散ガイダンスにおける統一リーマン幾何学的制御の視点

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer