Abstract
幅広い実世界アプリケーションにおいて、3Dポイントクラウド領域での事前学習モデルの台頭が進む中、下流タスクへの適応がますます重要になってきています。しかし、従来のフルファインチューニング手法は計算コストとストレージ負荷が大きいのが課題です。プロンプトチューニングは効率的な代替として登場しましたが、多くの場合過学習を起こし、それによって汎化能力が損なわれます。この問題に対処するため、事前学習済み3Dビジョン・言語モデル(VLMs)向けのパラメータ効率の高いプロンプトチューニング手法であるPrototypical Point-level Prompt Tuning(P^3T)を提案します。P^3Tは2つの構成要素から成ります:1) extit{Point Prompter}は入力ポイントクラウドに対してインスタンス認識に基づくポイントレベルのプロンプトを生成し、2) extit{Text Prompter}は手作りのプロンプトではなく、学習可能なプロンプトを入力テキストに組み込むものです。両方のプロンプターは入力データに直接作用するため、P^3Tは汎化可能性を損なうことなく、3D VLMsのタスク固有の適応を可能にします。さらに、3D VLMsのファインチューニングにおける重要な鍵である埋め込み空間の整合性を高めるため、カテゴリ内分散を低減するプロトタイプ化された損失関数を導入します。大規模な実験により、提案手法が分類および少数ショット学習においてフルファインチューニングと同等、またはそれを上回る性能を達成することが示され、さらにクロスデータセット設定におけるデータシフト下での頑健な汎化も確認されます。コードは extcolor{violet}{https://github.com/gyjung975/P3T} で公開されています。