AI Navigate

VFM-Recon: スケール整合性を備えたファウンデーションモデルの事前知識を活用し、クロスドメインのシーンレベルニューラル再構成を実現する

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

原文を読む →

共有:

要点

VFMReconは、単眼動画からのクロスドメインデータを扱うために、転移可能なビジョンファウンデーションモデルの事前知識を活用し、スケール整合性を備えたシーンレベルのニューラル再構成フレームワークを提供します。
軽量なスケール整列ステージが、体積融合におけるスケールの曖昧さを解消するため、マルチビュー間のスケール整合性を回復します。
本手法は、再構成のために訓練された軽量のタスク特化アダプターを介して事前学習済みのVFM特徴を組み込み、クロスドメインの頑健性を維持します。
ScanNet（データ分布内）および分布外の TUM RGB-D、Tanks and Temples の評価は、最先端の性能を示し、Tanks and Temples は VGGT の 51.8 に対して 70.1 の F1 スコアを達成しました。

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

Reddit r/MachineLearning

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

Reddit r/LocalLLaMA

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

Reddit r/LocalLLaMA

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

Reddit r/MachineLearning

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。