P3T:3Dビジョン・言語モデル向けのプロトタイプ型ポイントレベル・プロンプトチューニングによる一般化性能の強化

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この論文は、3Dポイントクラウドの下流タスクに対して、フル微調整の計算・ストレージ負荷を避けつつ事前学習済み3Dビジョン・言語モデルを適応するための、パラメータ効率の高い手法P3Tを提案します。
  • P3Tは2つの学習コンポーネント(入力点群からインスタンスに応じたポイントレベル・プロンプトを生成するPoint Prompterと、手作りではなく学習可能なプロンプトをテキストへ注入するText Prompter)を用います。
  • 一般化性能を高めるために、カテゴリ内分散を下げて埋め込み空間の整合を促すことを目的としたプロトタイプ損失を導入しています。
  • 実験では分類および少数ショット学習においてフル微調整と同等以上の性能を示し、さらにクロスデータセットでのデータシフトに対して頑健な一般化が確認されています。
  • 著者は再現や発展を可能にするため、GitHubでコードを公開しています。

Abstract

幅広い実世界アプリケーションにおいて、3Dポイントクラウド領域での事前学習モデルの台頭が進む中、下流タスクへの適応がますます重要になってきています。しかし、従来のフルファインチューニング手法は計算コストとストレージ負荷が大きいのが課題です。プロンプトチューニングは効率的な代替として登場しましたが、多くの場合過学習を起こし、それによって汎化能力が損なわれます。この問題に対処するため、事前学習済み3Dビジョン・言語モデル(VLMs)向けのパラメータ効率の高いプロンプトチューニング手法であるPrototypical Point-level Prompt Tuning(P^3T)を提案します。P^3Tは2つの構成要素から成ります:1) extit{Point Prompter}は入力ポイントクラウドに対してインスタンス認識に基づくポイントレベルのプロンプトを生成し、2) extit{Text Prompter}は手作りのプロンプトではなく、学習可能なプロンプトを入力テキストに組み込むものです。両方のプロンプターは入力データに直接作用するため、P^3Tは汎化可能性を損なうことなく、3D VLMsのタスク固有の適応を可能にします。さらに、3D VLMsのファインチューニングにおける重要な鍵である埋め込み空間の整合性を高めるため、カテゴリ内分散を低減するプロトタイプ化された損失関数を導入します。大規模な実験により、提案手法が分類および少数ショット学習においてフルファインチューニングと同等、またはそれを上回る性能を達成することが示され、さらにクロスデータセット設定におけるデータシフト下での頑健な汎化も確認されます。コードは extcolor{violet}{https://github.com/gyjung975/P3T} で公開されています。