長いテールを考慮した効率的な学習のための動的クラスタデータサンプリング（ビジョン・ランゲージ・プリトレーニング）

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ビジョン・ランゲージ・モデル（VLM）の学習計算コストを、学習データのサンプリング手法を工夫することで削減する動的クラスタベースサンプリング手法（DynamiCS）を提案しています。
先行研究が主にセマティックなトピック分布のバランス調整に焦点を当てていたのに対し、DynamiCSは効率化のためのダウンサンプリングが希少（ロングテール）概念の表現を損なう可能性に明確に対処します。
DynamiCSは、大きいクラスタをダウンサンプルし、小さいクラスタをアップサンプルし、各エポックごとにサンプリングを適用することで学習中に動的に振る舞います。
著者らは、この手法がセマンティッククラスタの相対的な順序を保ちつつロングテールを強調できることを示し、ロングテールの性能向上につながると報告しています。
実験では、DynamiCSがVLMの学習コストを削減しつつ、ロングテール概念の精度を改善することが示されています。

要旨: 画像と言語の両方を扱うモデル（VLM）の学習にかかる計算コストは、学習データをサンプリングすることで削減できます。効率的なVLM事前学習に関する従来研究では、意味データのバランスの重要性が指摘されており、VLMの精度を向上させるためにデータ中のトピック分布を調整します。しかし、既存の効率的な事前学習アプローチでは、まれな概念が学習コーパスから不釣り合いに取り除かれてしまう可能性があります。その結果、
\emph{ロングテール概念}は学習データに十分に表現されず、学習中に効果的に捉えられません。本研究では、大きなクラスタのデータをダウンサンプリングし、小さなクラスタをアップサンプリングする、
\emph{動的クラスタベースのサンプリング手法（DynamiCS）}を提案します。この手法は、各エポックでサンプリングを適用するため動的です。まず、VLM学習における動的サンプリングの重要性を示します。次に、データ中の意味クラスタの相対的な順序を維持し、ロングテールを強調する、クラスタスケーリング手法の利点を実証します。このアプローチは、データの意味分布を単に平坦化することにのみ焦点を当てている現在の研究とは対照的です。実験の結果、DynamiCSはVLM学習の計算コストを削減し、ロングテール概念に対して性能上の優位性をもたらすことが分かりました。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

誰も欲しがらないのに、私は毎日使っているPDF機能

Dev.to

長いテールを考慮した効率的な学習のための動的クラスタデータサンプリング（ビジョン・ランゲージ・プリトレーニング）

要点

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣