潜在検証者による推論時の小規模スケーリング

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散トランスフォーマ(DiT)生成器に対する推論時検証器である「Verifier on Hidden States(VHS)」を導入する。VHSは候補をピクセル空間へデコードするのではなく、中間の隠れ状態表現を評価して検証を行う。
  • ピクセル空間への冗長なデコードと、その後のマルチモーダル埋め込み空間への再エンコードを回避することで、VHSはMLLMベースの検証器と比べて、候補1つあたりの検証コストを大幅に低減する。
  • 小さな「推論時の予算(tiny inference budgets)」のもとでの実験では、VHSはMLLM検証器の性能を上回る、または同等の性能を示しつつ、生成と検証の同時所要時間を63.3%、FLOPsを51%、VRAM使用量を14.5%削減する。
  • 同一の推論時予算において、VHSはGenEvalで+2.7%の改善を達成しており、重いマルチモーダル検証器のオーバーヘッドを伴わずに、効率的なテスト時スケーリングが実現できることを示唆している。