データ量を抑えた高速収束: マルチモーダル指示チューニングのための目標駆動データ最適化

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は Goal-Driven Data Optimization (GDO) を提案する。これは各候補に対して6つのサンプル記述子を計算し、マルチモーダル指示チューニングにおける異なる目標をサポートする最適化された1×学習サブセットを構築するフレームワークである。
8台の H20 GPU 上で、固定された1エポックの Qwen3-VL-8B-Instruct 訓練レシピの下で、GDO は Uni-10x ベースラインよりはるかに少ない訓練サンプルを使用しつつ、収束が速く、複数のベンチマーク（MVBench、VideoMME、MLVU、LVBench）でより高い精度を達成する。
定量的には、MVBench で35.4k サンプル、VideoMME で26.6k、MLVU で27.3k、LVBench で34.7k のサンプルで Uni-10x の参照に到達し、それぞれ精度が +1.38、+1.67、+3.08、+0.84 ポイントの改善を達成し、最大の改善は MVBench と MLVU である。
結果は、より強い時間的強調（MinLoss、Diverse、Temp、Temp+）が長時間の動画理解を向上させることを示しており、著者はコードへの GitHub リンクを提供している。

要約: マルチモーダル指示チューニングは、トレーニング予算が非常に不均一な大規模な混在画像-動画プールに分散されるため、しばしば計算効率が悪い。私たちは Goal-Driven Data Optimization (GDO) を提案します。これは各候補について6つのサンプル記述子を計算し、異なる目的のための最適化された 1× トレーニングサブセットを構築するフレームワークです。8つの H20 GPU を用いた固定の1エポックの Qwen3-VL-8B-Instruct のトレーニングと評価レシピの下で、GDO は Uni-10x ベースラインよりはるかに少ないトレーニングサンプルで、収束が速く、精度が高くなります。固定の512kサンプルの Uni-10x ベースラインと比較して、GDO は MVBench で 35.4k サンプル、VideoMME で 26.6k、MLVU で 27.3k、LVBench で 34.7k のサンプルで Uni-10x の参照値に到達し、精度をそれぞれ +1.38、+1.67、+3.08、+0.84 パーセンテージポイント改善します。この利得は MVBench と MLVU で最大であり、LVBench はより控えめに改善します。これは LVBench の超長尺動画設定と、そのベンチマークと短尺動画/画像優位のトレーニングプールとの不一致に一致しています。 MinLoss、Diverse、Temp、および Temp+ に渡って、より強い時間的強調は長尺動画理解の挙動を着実に改善します。全体として、GDO は固定のトレーニングプロトコルの下で、より少ないトレーニングサンプルでより速く収束を可能にする、目標駆動型のデータ最適化フレームワークを提供します。コードは https://github.com/rujiewu/GDO で利用可能です。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

データ量を抑えた高速収束: マルチモーダル指示チューニングのための目標駆動データ最適化

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer