要約: マルチモーダル指示チューニングは、トレーニング予算が非常に不均一な大規模な混在画像-動画プールに分散されるため、しばしば計算効率が悪い。私たちは Goal-Driven Data Optimization (GDO) を提案します。これは各候補について6つのサンプル記述子を計算し、異なる目的のための最適化された 1× トレーニングサブセットを構築するフレームワークです。8つの H20 GPU を用いた固定の1エポックの Qwen3-VL-8B-Instruct のトレーニングと評価レシピの下で、GDO は Uni-10x ベースラインよりはるかに少ないトレーニングサンプルで、収束が速く、精度が高くなります。固定の512kサンプルの Uni-10x ベースラインと比較して、GDO は MVBench で 35.4k サンプル、VideoMME で 26.6k、MLVU で 27.3k、LVBench で 34.7k のサンプルで Uni-10x の参照値に到達し、精度をそれぞれ +1.38、+1.67、+3.08、+0.84 パーセンテージポイント改善します。この利得は MVBench と MLVU で最大であり、LVBench はより控えめに改善します。これは LVBench の超長尺動画設定と、そのベンチマークと短尺動画/画像優位のトレーニングプールとの不一致に一致しています。 MinLoss、Diverse、Temp、および Temp+ に渡って、より強い時間的強調は長尺動画理解の挙動を着実に改善します。全体として、GDO は固定のトレーニングプロトコルの下で、より少ないトレーニングサンプルでより速く収束を可能にする、目標駆動型のデータ最適化フレームワークを提供します。コードは https://github.com/rujiewu/GDO で利用可能です。
データ量を抑えた高速収束: マルチモーダル指示チューニングのための目標駆動データ最適化
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は Goal-Driven Data Optimization (GDO) を提案する。これは各候補に対して6つのサンプル記述子を計算し、マルチモーダル指示チューニングにおける異なる目標をサポートする最適化された1×学習サブセットを構築するフレームワークである。
- 8台の H20 GPU 上で、固定された1エポックの Qwen3-VL-8B-Instruct 訓練レシピの下で、GDO は Uni-10x ベースラインよりはるかに少ない訓練サンプルを使用しつつ、収束が速く、複数のベンチマーク(MVBench、VideoMME、MLVU、LVBench)でより高い精度を達成する。
- 定量的には、MVBench で35.4k サンプル、VideoMME で26.6k、MLVU で27.3k、LVBench で34.7k のサンプルで Uni-10x の参照に到達し、それぞれ精度が +1.38、+1.67、+3.08、+0.84 ポイントの改善を達成し、最大の改善は MVBench と MLVU である。
- 結果は、より強い時間的強調(MinLoss、Diverse、Temp、Temp+)が長時間の動画理解を向上させることを示しており、著者はコードへの GitHub リンクを提供している。