DataProphet: マルチモーダルLLMにおける教師データ一般化の謎を解明する

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、訓練データとターゲットのベンチマークとの直感的な類似性が、マルチモーダルLLMsにおける下流での性能向上を信頼性高く予測するかを問い、14個の視覚言語データセット全体でそれが信頼できないことを示した。
  • トレーニング不要の指標 DATAPROPHET を導入し、マルチモーダルパープレキシティ、データセットの類似性、およびデータの多様性を組み合わせて監督データをランキングする。
  • 14の視覚言語データセットと7つのタスクにわたり、本法は一般化が広範なタスクラベルよりも特定のデータセットに依存することを示し、訓練後の実際の改善と相関する(ケンドールのτ = 86.0%)。
  • DATAPROPHET に基づくデータ選択は、均一選択に比べ最大で6.9%の改善、最先端の訓練ベースのベースラインに比べて1.4%、実験的性能に基づくオラクル選択を0.2%上回る。
  • 著者らはコードとデータを公開する予定。