Evian:説明可能なビジュアル・インストラクション・チューニング用データ監査に向けて
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、LVLMの性能は高品質な学習データに大きく依存しており、既存のフィルタリング手法は論理の誤りや事実誤認といった微妙な意味的欠陥を見抜くには粗すぎると主張しています。
- 著者らは、多様で微細な欠陥を体系的に注入して作ることで、ビジュアル・インストラクション用データの監査をより厳しく検証できる300Kサンプル規模のベンチマークを提示します。
- 「Decomposition-then-Evaluation(分解してから評価する)」という手法により、モデルの出力を視覚的記述、主観的推論、事実主張の構成要素に分け、よりきめ細かな診断を可能にします。
- これをEVIAN(Explainable Visual Instruction-tuning Data AuditiNg)として実装し、画像とテキストの整合性、論理的整合、事実の正確性の3軸で自動評価する枠組みを提案します。
- 実験では、EVIANによって品質を高めた小規模データで微調整したモデルが、桁違いに大きいデータで学習したモデルを一貫して上回ることが示され、また論理的整合がデータ品質評価で最重要だと明らかにされます。




