Abstract
運転データセットにおける長い裾(ロングテール)分布は、3D知覚にとって根本的な課題です。まれなクラスはクラス内多様性が大きい一方で、利用可能なサンプルはその変動空間をまばらにしかカバーできません。コピー&ペーストやアセットライブラリに基づく既存のインスタンス拡張手法は、まれなクラスへの露出を改善しますが、きめ細かな多様性やシーン文脈への配置の面ではしばしば制限があります。私たちは、オフ・ザ・シェルフの基盤モデルを用いて同期したRGB--LiDARのインスタンスを合成し、逐次的な意味的および幾何学的検証でそれらを厳選する、画像を起点としたマルチモーダル拡張フレームワークVERIAを提案します。この検証中心の設計は、より実際のLiDAR統計に合致するインスタンスを選びやすく、かつクラス内変動の幅をより広くカバーする傾向があります。段階的な収率分解は、パイプライン信頼性のログベースの診断を提供します。nuScenesおよびLyftにおいて、VERIAはLiDAR単独およびマルチモーダルの両設定で、まれなクラスの3D物体検出を改善します。コードは https://sgvr.kaist.ac.kr/VERIA/ で公開しています。