視覚モデルの失敗を診断するための合成デザイン実験

arXiv cs.CV / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のコンピュータビジョン向け合成データ・パイプラインが「オープンループ」で単に合成出力をサンプリングしがちであり、モデルの失敗モードをどのシーン要因が引き起こしているかを明確に診断できていないと主張します。
  • SDRS(Synthetic Designed Experiments for Representational Sufficiency)は、モデルをブラックボックスとして、合成ジェネレータを実験装置として扱い、Design of Experiments の考え方で要因に対する感度プロファイルを監査する手法を提案しています。
  • SDRSはANOVA分解により感度を切り分け、失敗を実行可能な2種類のギャップ(Type Iのカバレッジ不足と、Type IIのニサンス要因への紐づき)に分類します。
  • dSpritesでのバイアス診断、手続き的シーンのセグメンテーションでの近道検出、そして不完全なジェネレータによる交差要因の混入検出、という3つの検証実験で、監査に基づくターゲット合成データにより指標が大幅に改善したことを示します。
  • さらに、因子ごとの不変性ペナルティが感度を別の因子へ移し替えてしまう可能性があることなど、表現レベルでの補正に関する未解決課題も提示しています。

要旨: 現在のコンピュータビジョン向け合成データ・パイプラインは、下流モデルが実際に何を必要としているかを診断せずに画像を生成する。オープンループのこのパラダイムでは、合成データを安価な実データとして扱い、生成器の出力空間をランダムにサンプリングして、モデルの失敗モードを覆えることを期待する。私たちは、これは合成データの固有の性質である「シーン因子の、制御可能で独立した変動」を根本的に誤用していると主張する。設計実験(DoE)の統計理論に基づき、表現的十分性のための合成設計実験(SDRS)を提案する。SDRSは下流モデルをブラックボックスのシステムとして扱い、合成生成器を実験装置として扱う。分数因子計画を用いることで、SDRSはANOVA分解によりモデルの因子感度プロファイルを効率的に監査する。監査では、失敗を2つの実行可能なタイプに分類する。タイプIのギャップ(過小評価されている因子水準でのカバレッジ不足)と、タイプIIのギャップ(もっともらしい雑音要因への依存)である。その後、監査結果に基づいて、各ギャップタイプを解消するためのターゲット化された合成データを処方する。私たちはSDRSを3つの実験で検証する。(1) 培植されたバイアスを用いたdSprites上での制御された診断実験。監査は両方のギャップタイプを正しく特定し、ターゲット化されたデータによって精度が49.9%から79.0%へ改善する。(2) 手続き的シーンに対する密なセグメンテーション課題。背景の複雑さのショートカットを検出し、ターゲット化されたデータを適用することでmIoUが0.948から0.998へ改善する。(3) エンタングルメント検出の実験。ANOVA監査が不完全な生成器における因子間の汚染(クロスファクター・コンタミネーション)を識別することを示す。最後に、因子ごとの不変性ペナルティが因子間で感度を移すことができ、表現レベルでの補正という未解決の問題を明らかにする。