要旨: 画像と言語の両方を扱うモデル(VLM)の学習にかかる計算コストは、学習データをサンプリングすることで削減できます。効率的なVLM事前学習に関する従来研究では、意味データのバランスの重要性が指摘されており、VLMの精度を向上させるためにデータ中のトピック分布を調整します。しかし、既存の効率的な事前学習アプローチでは、まれな概念が学習コーパスから不釣り合いに取り除かれてしまう可能性があります。その結果、
\emph{ロングテール概念}は学習データに十分に表現されず、学習中に効果的に捉えられません。本研究では、大きなクラスタのデータをダウンサンプリングし、小さなクラスタをアップサンプリングする、
\emph{動的クラスタベースのサンプリング手法(DynamiCS)}を提案します。この手法は、各エポックでサンプリングを適用するため動的です。まず、VLM学習における動的サンプリングの重要性を示します。次に、データ中の意味クラスタの相対的な順序を維持し、ロングテールを強調する、クラスタスケーリング手法の利点を実証します。このアプローチは、データの意味分布を単に平坦化することにのみ焦点を当てている現在の研究とは対照的です。実験の結果、DynamiCSはVLM学習の計算コストを削減し、ロングテール概念に対して性能上の優位性をもたらすことが分かりました。
長いテールを考慮した効率的な学習のための動的クラスタデータサンプリング(ビジョン・ランゲージ・プリトレーニング)
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ビジョン・ランゲージ・モデル(VLM)の学習計算コストを、学習データのサンプリング手法を工夫することで削減する動的クラスタベースサンプリング手法(DynamiCS)を提案しています。
- 先行研究が主にセマティックなトピック分布のバランス調整に焦点を当てていたのに対し、DynamiCSは効率化のためのダウンサンプリングが希少(ロングテール)概念の表現を損なう可能性に明確に対処します。
- DynamiCSは、大きいクラスタをダウンサンプルし、小さいクラスタをアップサンプルし、各エポックごとにサンプリングを適用することで学習中に動的に振る舞います。
- 著者らは、この手法がセマンティッククラスタの相対的な順序を保ちつつロングテールを強調できることを示し、ロングテールの性能向上につながると報告しています。
- 実験では、DynamiCSがVLMの学習コストを削減しつつ、ロングテール概念の精度を改善することが示されています。




