Iris: 単眼深度推定のための拡散モデルに現実世界の事前知識を取り入れる

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

共有:

要点

Irisは、現実世界の事前知識を拡散モデルに組み込んだ、単眼深度推定のための決定論的な拡散ベースのフレームワークを提案する。
低周波の事前知識を転送し高周波の忠実度を担保するために、Spectral-Gated Distillation (SGD) と Spectral-Gated Consistency (SGC) を組み込んだ二段階の Priors-to-Geometry Deterministic (PGD) スケジュールを導入する。
この二段階は重みを共有し、高から低へと進むタイムステップのスケジュールで動作するため、データが限られた状況でも効率的な学習と、合成データから実景へのより良い一般化を実現する。
実験結果は、単眼深度推定性能の顕著な向上と、現実世界のシナリオへの強い一般化を示している。

要旨：本論文では、\textbf{Iris}を、現実世界の事前知識を拡散モデルに組み込んだ、単眼深度推定（MDE）用の決定論的フレームワークとして提案します。従来のフィードフォワード法は大量の訓練データに依存しますが、それでも細部を見逃します。従来の拡散ベースの手法は豊富な生成事前知識を活用しますが、合成データから実データへのドメイン転移には苦戦します。\textbf{Iris}は細部を保持し、合成データから実世界のシーンへ強く一般化し、限られた訓練データでも効率的に動作します。これを実現するために、二段階の Priors-to-Geometry Deterministic (PGD) スケジュールを導入します：事前段は Spectral-Gated Distillation (SGD) を用いて低周波の現実世界の事前知識を転送し、高周波の細部は拘束されません。幾何段では Spectral-Gated Consistency (SGC) を適用して高周波の忠実度を担保しつつ、合成のグラウンドトゥルースで洗練させます。両段階は重みを共有し、ハイからローへのタイムステップスケジュールで実行されます。広範な実験結果は、\textbf{Iris} が MDE の性能を大幅に改善し、現場環境での強い一般化を実現することを示しています。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

Reddit r/MachineLearning

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

Reddit r/LocalLLaMA

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

Reddit r/LocalLLaMA

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

Reddit r/MachineLearning

Iris: 単眼深度推定のための拡散モデルに現実世界の事前知識を取り入れる

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer