アダプタ不要のファインチューニング手法:3D基盤モデルの調整

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、データが少ない(few-shot)状況で3Dポイントクラウド基盤モデルの適応性を向上させるための、アダプタ不要のファインチューニング手法であるMomentum-Consistency Fine-Tuning(MCFT)を提案する。
  • MCFTは、事前学習済みエンコーダの一部のみをファインチューニングし、表現のドリフトや過学習を抑えるために運動量に基づく一貫性制約を適用することで、全量ファインチューニングと比べて改善を図る。
  • このアプローチは元のモデルのパラメータ数を維持し、標準的なタスクヘッド以外の新たな学習可能コンポーネントを追加しない。そのため、アダプタ型のPEFTで一般的な推論時のレイテンシ増加を回避できる。
  • 2つの拡張も提案される:より強力なfew-shot性能のためにラベルなしデータを活用する半教師ありバリアント、構造化された層の削除により計算効率を高めるプルーニングベースのバリアントである。
  • オブジェクト認識およびパーツセグメンテーションのベンチマークでの実験により、一貫した改善が示される(例:5-shotで+3.30%、半教師あり学習で最大+6.13%)。さらに、計算資源が限られた環境での導入にも現実的に対応可能である。

Abstract

ポイントクラウド基盤モデルは強い汎化性能を示すものの、下流タスクへの適応は低データ領域では依然として困難です。完全微調整(full fine-tuning)を行うと過学習が起きやすく、事前学習済み表現からの大きなドリフト(ずれ)につながります。一方、既存のパラメータ効率的微調整(PEFT)手法は、推論時の遅延増加という代償を払うことで、この問題を緩和します。私たちは、完全微調整とパラメータ効率的微調整のギャップを埋める、アダプタ不要の手法であるMomentum-Consistency Fine-Tuning(MCFT)を提案します。MCFTは、事前学習済みエンコーダの一部のみを選択的に微調整し、タスク非依存的な表現を保持するために、運動量(momentum)ベースの整合性制約を課します。PEFT手法とは異なり、MCFTは標準的なタスクヘッド以外の追加の表現学習パラメータを導入しないため、元のモデルのパラメータ数と推論効率を維持できます。さらにMCFTを2つのバリアントで拡張します。1つは、豊富な未ラベルデータを活用して少数ショット性能を高める半教師ありフレームワークであり、もう1つは、構造化された層の削除によって計算効率を改善するプルーニング(pruning)ベースのバリアントです。物体認識および部位セグメンテーションのベンチマークに関する大規模な実験により、MCFTは一貫して従来手法を上回り、5-shot設定で3.30%の向上、半教師あり学習では最大で6.13%の改善を達成しつつ、資源が制約された環境での導入にも適しています。