FreeOcc：学習なしで行う身体性（エンボディド）オープン語彙占有率予測

arXiv cs.RO / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

FreeOccは、3Dアノテーションや姿勢（ポーズ）正解、学習フェーズ自体を必要としない「学習なし」のオープン語彙占有率予測フレームワークです。
この手法は単眼またはRGB-Dシーケンスから4段階のパイプラインでグローバル整合的な3D占有地図を構築し、SLAMによる姿勢・疎な幾何推定、幾何学的に整合したガウス更新、オフ・ザ・シェルフのビジョン・ランゲージモデルによる意味付け、そして確率的なガウスからボクセルへの投影で密な占有を生成します。
FreeOccは姿勢に依存しないにもかかわらず、EmbodiedOcc-ScanNetで従来の自己教師あり手法に対してIoUとmIoUが2倍超改善したと報告されています。
本研究では、屋内のオープン語彙占有率予測のベンチマークとなるReplicaOccも新たに導入し、未知環境へのゼロショット転移で教師あり・自己教師ありの基準手法を大きく上回ることを示しています。
オープン語彙の意味は既存のビジョン・ランゲージモデルから取得し、追加学習なしで言語概念と3D占有出力を結び付ける設計です。

Dev.to

ITmedia AI+

Reddit r/artificial

Dev.to

ITmedia AI+