UniEditBench：蒸留したMLLMによる画像・動画編集のための統一的かつ低コストなベンチマーク

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文では、異なるパラダイムにまたがって画像・動画の編集モデルを同一プロトコルでより公平に評価するためのベンチマーク「UniEditBench」を提案します。
画像では9種類、動画では8種類の操作に関する詳細なタクソノミーを定義し、計数や空間的な並べ替えといった難しい合成タスクを含めています。
既存の自動評価指標は人間の嗜好とずれることがあり、さらに大規模マルチモーダルLLMを評価器として直接用いると計算・費用が過大になるため、著者らは高性能なMLLMジャッジを小型の4B/8B評価器へ蒸留します。
蒸留した評価器は、構造的忠実度やテキスト整合性、背景の一貫性、自然さ、そして動画では時間・空間的な整合性など、複数次元のスコアリングを提供し、人間評価との強い一致を示しつつ評価コストを大幅に削減します。
UniEditBenchおよび関連する報酬モデルは公開されており、現代のビジュアル編集手法の再現可能なベンチマークを支援します。

Reddit r/LocalLLaMA

Dev.to

Dev.to

Dev.to

Reddit r/artificial