DINO Eats CLIP:既知の外側へ適応するオープンセット3D物体検索

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、DINO系エンコーダとCLIPの視覚言語アラインメントの利点を組み合わせた、オープンセット3D物体検索の新フレームワーク「DINO Eats CLIP(DEC)」を提案している。
  • 凍結したDINOバックボーンで多視点特徴を平均プーリングするだけでも一定の性能が得られる一方、さらに適応を進めると既知クラスの平均的なパターンに過度適合してしまう深刻なオーバーフィッティングが発生する。
  • 汎化を高めるために、DECは「Chunking and Adapting Module(CAM)」を導入し、多視点画像をチャンクに分割して、単純なプーリングではなく局所的な視点関係を動的に統合する。
  • 既知カテゴリへのバイアスを抑えるため、さらに「Virtual Feature Synthesis(VFS)」を提案し、CLIPを用いて未見クラス向けの仮想特徴を生成して学習に活用する。
  • 標準的なオープンセット3DORベンチマークでの実験により、DECが従来手法よりも優れたオープンセット判別性能を示すことが報告されている。

要旨: 視覚基盤モデルは、多視点画像への効率的な適応によって、オープンセットの3D物体検索(3DOR)に大きな期待を示している。意味的に整合した潜在空間を活用し、先行研究では通常、CLIPエンコーダを適応させてビューに基づく3D記述子を構築する。CLIPは強力な汎化能力を持つ一方で、きめ細かさが欠けているため、より新しい自己教師ありエンコーダであるDINOの可能性を探ることにした。これに対処するために、我々は未見クラスのデータを合成することで正則化する、新しい動的多視点統合フレームワークであるDINO Eats CLIP(DEC)を提案する。まず、凍結したDINOバックボーンから得た視点特徴に平均プーリングを単に適用するだけでも十分な性能が得られることを見出す。だが、さらに適応を進めると、既知クラスの平均的な視点パターンに対して深刻な過学習が生じる。これを打ち消すために、次にChunking and Adapting Module(CAM)というモジュールを設計する。CAMは多視点画像をチャンクに分割し、ローカルな視点関係を動的に統合することで、標準的なプーリング戦略よりも頑健な特徴を得られるようにする。最後に、既知カテゴリへのバイアスを明示的に緩和するためのVirtual Feature Synthesis(VFS)モジュールを提案する。内部では、VFSはCLIPの広範で事前に整合された視覚・言語空間を利用して、未見クラスに対する仮想特徴を合成する。これらの仮想特徴をDECに提示することで、そのオープンセット識別能力を大幅に高める。標準的なオープンセット3DORベンチマークに対する大規模な実験により、その有効性が優れていることが示される。