概要: 点群における空間ダイナミクスとセマンティクスの理解は、包括的な3D理解のための基礎です。Group Relative Policy Optimization(GRPO)などの強化学習アルゴリズムは、戦略的な報酬設計によって推論能力を促すことで、大規模言語モデルにおいて最近目覚ましいブレークスルーを達成してきましたが、その可能性は3D知覚の領域ではほとんど未踏のままです。これは自然に次の重要な問いを導きます。すなわち、RLベースの手法は3D点群のファインチューニングを効果的に強化できるのか、ということです。本論文では、点群表現学習に特化した初めての強化学習ファインチューニングの枠組みであるPointRFTを提案します。私たちは3つの代表的な3D基盤モデルを選び、学習を安定化し、分布シフトを緩和するために、専用の精度報酬関数と分散報酬関数を設計します。異なる学習パラダイムを比較する包括的な少数ショット分類実験を通じて、PointRFTが多様なベンチマークにおいて一貫して、標準的な教師ありファインチューニング(SFT)を上回ることを示します。さらに、ハイブリッドなPretraining-SFT-RFTパラダイムに自然に組み込むことで、点群基盤モデルの表現能力が大きく解き放たれ、特にデータが乏しい状況において最先端の性能を達成します。
PointRFT:ポイントクラウドの少数ショット学習に向けた明示的強化(Reinforcement)ファインチューニング
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、少数ショット分類の設定のもとで3Dポイントクラウド表現学習を行うために特化した、強化ファインチューニング・フレームワークPointRFTを提案する。
- RL強化型LLM学習における報酬設計の考え方を適用し、学習を安定化させ分布シフトを抑えるための、専用の精度報酬関数と分散報酬関数を提案する。
- 3つの代表的な3D基盤モデルに対する実験により、PointRFTは複数のベンチマークで一様な教師ありファインチューニング(SFT)を一貫して上回ることが示される。
- 著者らはさらに、PointRFTをハイブリッドなPretraining-SFT-RFTパイプラインに組み込むことで、特に学習データが乏しい場合に表現能力が大きく向上し、最先端(SOTA)の結果が得られることも確認している。