MixAtlas：不確実性を考慮したマルチモーダルLLMのミッドトレーニング向けデータ混合最適化

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、マルチモーダルLLMのミッドトレーニング向けに不確実性を考慮したデータ混合（data-mixture）最適化を行う新手法「MixAtlas」を提案し、従来の単一軸の混合調整を超えます。
MixAtlasは学習データを、(1)画像コンセプトのクラスタ（CLIP埋め込みから10クラスター）と、(2)タスクの教師信号（キャプション、OCR、グラウンディング、検出、VQAなど計5つの目的）という2つの次元に分解し、検査・適応・転用可能な学習用レシピを作ります。
Qwen2-0.5Bの小型プロキシモデルにガウス過程サロゲートとGP-UCB獲得関数を組み合わせ、回帰ベースラインと同等のプロキシ予算のもとで混合空間を探索します。
10のマルチモーダル・ベンチマークで検証した結果、Qwen2-7Bでは最良ベースラインに対して平均性能が8.5%-17.6%向上し、Qwen2.5-7Bでも1.0%-3.3%の改善が示されます。
見つけたレシピは0.5Bのプロキシ設定から、Qwenモデルファミリーの7Bスケールのミッドトレーニングへ転用できることが確認され、モデルやコーパスをまたいだ実用性を示唆します。

要旨: ドメインの再重み付けはサンプル効率や下流での汎化を改善できますが、多モーダルの中間学習におけるデータ混合の最適化はほとんど未調査のままです。現在のマルチモーダル学習のレシピは、通常はデータの形式またはタスク種別といった1つの次元に沿って混合を調整しています。そこで本研究では、MixAtlasを提案します。MixAtlasは、検査・適応・新しいコーパスへの転送が可能な、ベンチマーク対象に特化したデータレシピを生成する方法です。MixAtlasは、学習コーパスを2つの軸に分解します。すなわち、画像の概念（CLIP埋め込みによって発見された10の視覚ドメイン・クラスタ）と、タスクの監督（キャプション生成、OCR、グラウンディング、検出、VQAを含む5種類の目的関数タイプ）です。小さなプロキシモデル（Qwen2-0.5B）とガウス過程のサロゲート、GP-UCB獲得関数を組み合わせることで、MixAtlasは回帰ベースラインと同じプロキシ予算で得られる混合空間を探索しますが、より高い性能を持つ混合を見つけます。視覚理解、文書推論、多モーダル推論にまたがる10のベンチマークで評価します。Qwen2-7Bでは、最も強力なベースラインに比べて平均性能が8.5%-17.6%改善し、Qwen2.5-7Bでは改善幅は1.0%-3.3%です。いずれの設定でも、最大で2倍少ないステップ数でベースラインと同等の学習損失に到達します。0.5Bのプロキシで発見したレシピは、Qwenモデルファミリ全体において、7Bスケールの学習へ転送できます。