重み付き h-変換サンプリングによる粗いガイド付き視覚生成

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散サンプリングに h-変換を適用し、理想的な高品質サンプルへと導くドリフト項を追加することで、訓練を要しない粗いガイド付き視覚生成の手法を提案します。
各サンプリングタイムステップで遷移確率を変更し、ノイズレベルを考慮したスケジュールを用いて、誤差が増大するにつれて徐々にガイダンスの重みを低下させ、ガイダンス遵守と高品質な合成のバランスを取ります。
従来の訓練不要アプローチとは異なり、本手法は前方（細かい→粗い）変換演算子を知っておく必要がなく、画像および動画生成タスクへの適用範囲を広げます。
多様な画像および動画生成タスクにおける広範な実験は、手法の有効性と一般化を示し、堅牢性と実用性を検証します。

本文: arXiv:2603.12057v1 アナウンス種別: 新規要旨: 粗い参照から高品質サンプルを合成する粗いガイド付き視覚生成は、さまざまな実世界のアプリケーションに不可欠です。訓練ベースのアプローチは効果的ですが、高い訓練コストとペアデータ収集による一般化の制約により本質的な限界があります。したがって、近年の訓練不要の手法は、事前学習済み拡散モデルを活用し、サンプリング過程でガイダンスを組み込むことを提案します。しかし、これらの訓練不要手法は前方（ファイン→粗い）変換演算子を知っている必要がある場合があり、またはガイダンスと合成品質のバランスを取ることが難しいです。これらの課題に対応するため、望ましい条件下で確率過程を制約できる道具である h-変換を用いた新たなガイド付き手法を提案します。具体的には、元の微分方程式にドリフト関数を加えることで、各サンプリングタイムステップの遷移確率を変更し、理想的な高品質サンプルへと生成を近づけます。避けられない近似誤差に対処するため、ノイズレベルを考慮したスケジュールを導入し、誤差が増加するにつれてその項の重みを徐々に低下させ、ガイダンスの遵守と高品質な合成の両方を確保します。多様な画像および動画生成タスクにわたる広範な実験は、われわれの手法の有効性と一般化を示します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

重み付き h-変換サンプリングによる粗いガイド付き視覚生成

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer