VFM-Recon: スケール整合性を備えたファウンデーションモデルの事前知識を活用し、クロスドメインのシーンレベルニューラル再構成を実現する
arXiv cs.CV / 2026/3/16
📰 ニュースModels & Research
要点
- VFMReconは、単眼動画からのクロスドメインデータを扱うために、転移可能なビジョンファウンデーションモデルの事前知識を活用し、スケール整合性を備えたシーンレベルのニューラル再構成フレームワークを提供します。
- 軽量なスケール整列ステージが、体積融合におけるスケールの曖昧さを解消するため、マルチビュー間のスケール整合性を回復します。
- 本手法は、再構成のために訓練された軽量のタスク特化アダプターを介して事前学習済みのVFM特徴を組み込み、クロスドメインの頑健性を維持します。
- ScanNet(データ分布内)および分布外の TUM RGB-D、Tanks and Temples の評価は、最先端の性能を示し、Tanks and Temples は VGGT の 51.8 に対して 70.1 の F1 スコアを達成しました。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning