要旨:パノラマ画像は360度の視野を提供し、民生機器でますます一般的になっています。しかし、それは非ピンホール歪みを生じさせ、同時に姿勢推定と3D再構成を難しくします。透視カメラ向けに構築された既存のフィードフォワードモデルは、この設定には一般化が乏しいです。私たちはPanoVGGTを提案します。これは、1つまたは複数のパノラマから、1回の順伝搬でカメラの姿勢、深度マップ、そして3D点群を同時に予測する、置換等価なTransformerフレームワークです。モデルは球面対応の位置埋め込みと、パノラマ特有の3軸SO(3)回転増強を組み込み、球面領域での幾何推論を効果的に可能にします。固有のグローバルフレームの曖昧さを解消するため、学習時に確率的なアンカリング戦略を導入します。さらに、密な深度情報と6自由度姿勢アノテーションを備えた大規模な屋外パノラマデータセットPanoCityを提供します。PanoCityおよび標準ベンチマークでの広範な実験により、PanoVGGTは競争力のある精度と高い堅牢性、そしてドメイン間一般化の改善を達成することが示されました。コードとデータセットは公開される予定です。
PanoVGGT: パノラマ画像からのフィードフォワード型3D再構成
arXiv cs.CV / 2026/3/19
📰 ニュースModels & Research
要点
- PanoVGGT は、1つ以上のパノラマからカメラ姿勢、深度マップ、および 3D点群を、1回の前方伝播で共同推定する、順列同変性を持つ Transformer である。
- 球面対応の位置埋め込みと、パノラマ固有の三軸 SO(3) 回転拡張を用いて、球面ドメインでの頑健な幾何推論を可能にする。
- グローバル座標系の曖昧性を解消するため、訓練時に確率的アンカリング戦略を採用する。
- 本研究は PanoCity を導入し、大規模な屋外パノラマデータセットで、密度の高い深度情報と 6自由度ポーズアノテーションを備え、競争力のある精度とドメイン間一般化を報告する。コードとデータの公開を予定している。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning