Evian：説明可能なビジュアル・インストラクション・チューニング用データ監査に向けて

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LVLMの性能は高品質な学習データに大きく依存しており、既存のフィルタリング手法は論理の誤りや事実誤認といった微妙な意味的欠陥を見抜くには粗すぎると主張しています。
著者らは、多様で微細な欠陥を体系的に注入して作ることで、ビジュアル・インストラクション用データの監査をより厳しく検証できる300Kサンプル規模のベンチマークを提示します。
「Decomposition-then-Evaluation（分解してから評価する）」という手法により、モデルの出力を視覚的記述、主観的推論、事実主張の構成要素に分け、よりきめ細かな診断を可能にします。
これをEVIAN（Explainable Visual Instruction-tuning Data AuditiNg）として実装し、画像とテキストの整合性、論理的整合、事実の正確性の3軸で自動評価する枠組みを提案します。
実験では、EVIANによって品質を高めた小規模データで微調整したモデルが、桁違いに大きいデータで学習したモデルを一貫して上回ることが示され、また論理的整合がデータ品質評価で最重要だと明らかにされます。

Abstract

大規模視覚言語モデル（LVLMs）の有効性は、その学習データの品質に強く依存しており、視覚的忠実性と指示追従能力の間に正確なバランスを要します。しかし、既存のデータセットは一貫性のない品質に悩まされており、現在のデータフィルタリング手法は、大まかなスコアに依存しているため、論理の誤謬や事実誤認といった、より微妙な意味上の欠陥を見分けるための粒度を欠いています。これにより、より信頼性の高いモデル開発における根本的なボトルネックが生じています。これを解決するために、私たちは3つの主要な貢献を行います。第一に、多様で微細な欠陥を体系的に注入して、大規模な30万サンプルのベンチマークを構築し、データ監査のための挑戦的なテストベッドを提供します。第二に、モデルの応答を構成要素となる認知的側面に分解する、新しい「分解してから評価（Decomposition-then-Evaluation）」パラダイムを提案します。具体的には、視覚記述、主観的推論、事実主張に分けることで、狙いを定めた分析を可能にします。第三に、このパラダイムをEVIAN（Explainable Visual Instruction-tuning Data AuditiNg）によって具体化します。これは、画像とテキストの整合性、論理的整合性、事実の正確性という直交する軸に沿って、これらの構成要素を評価する自動化フレームワークです。実証的な調査結果は、従来の「スケール重視」パラダイムに疑問を投げかけます。すなわち、EVIANによって厳選されたコンパクトで高品質なサブセットで微調整されたモデルは、桁違いに大規模なデータセットで学習したモデルを一貫して上回りました。また、複雑な監査を検証可能なサブタスクへ分割することで頑健なキュレーションが可能になり、さらにデータ品質の評価において最も重要な要因は論理的整合性であることも明らかにしました。