DOSE：オフザシェルフ・モデルによるマルチモーダルLLMのためのデータ選択

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、マルチモーダル（視覚-言語）学習ではデータにノイズや冗長性、アライメント不良が多く含まれがちで、VLMの向上を妨げると論じています。
タスク固有の学習や微調整なしで、対象データを一度も見ていないオフザシェルフの事前学習済みモデルを用いてサンプルを評価・選択する手法「DOSE」を提案します。
DOSEはテキストの品質と画像-テキスト間の整合性（アライメント）をスコア化し、品質とアライメントの同時分布を構築したうえで、適応的な重み付きサンプリングによって有益なサンプルを選びつつロングテールの多様性を維持します。
VQAや数学ベンチマークの実験では、DOSEでフィルタしたデータで学習したモデルが、フルデータで学習したモデルに匹敵、または上回る結果が示されています。
本研究は、既存の事前学習モデルをデータキュレーションに再利用することで、従来のフィルタリングで発生しがちな追加計算コストを抑えられる可能性を示しています。

要旨: 高品質で多様なマルチモーダルデータは、視覚言語モデル（VLM）を改善するために不可欠ですが、既存のデータセットにはしばしばノイズが多く、冗長で、整合性の低いサンプルが含まれています。これらの問題に対処するため、データフィルタリングはマルチモーダル学習の効率と性能を高める目的で一般に用いられますが、フィルタリングモデルは通常、スクリーニング対象として想定される同じデータで学習されているため、追加の計算コストが生じます。このコストを削減するために、本研究ではDOSEを検討します。これは、対象データを一度も見たことのない既製の事前学習済みモデルを用いて、タスク固有の学習なしで、より大きく強力なマルチモーダルモデルのための学習サンプル選択に利用できるかどうかを探るものです。微調整を行わなくても、これらのモデルはテキストの品質や画像とテキストの整合性を効果的に評価し、データ選択を導くことができます。これに基づいて、品質と整合性の同時分布を構築し、適応的な重み付きサンプリングを適用して、長い裾（ロングテール）の多様性を維持しつつ、情報量の多いサンプルを選択します。この手法はデータの多様性を高め、DOSEでフィルタリングしたデータで学習したモデルが、標準的なVQAおよび数学ベンチマークにおいて、全データで学習したモデルに匹敵、またはそれを上回ることを可能にします。大規模な実験により、その有効性、効率性、および拡張性が示されます。