DistortBench：画像の歪み（歪みタイプ/重症度）を識別するためのビジョン・ランゲージ・モデル用ベンチマーク

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、画像の歪みの種類と重症度を、参照画像なしで識別する能力を評価する診断用ベンチマーク「DistortBench」を提案している。
DistortBenchは4択問題13,500問からなり、27種類の歪みを6つの知覚カテゴリと5つの重症度レベルに整理しており、25の歪みはKADID-10kのキャリブレーションに基づき、残り2つは角度に基づく回転歪みとして追加されている。
18のVLM（5つのファミリーに属する17のオープンウェイトモデルと、1つのプロプライエタリモデル）を評価した結果、最良モデルでも精度は61.9%にとどまり、人間の多数決ベースライン65.7%を下回った。
分析では、モデル規模に対するスケーリングが弱くかつ単調でないこと、「base–thinking」の多くで性能低下が見られること、さらにモデルファミリーごとに重症度への反応パターンが異なることが示された。
著者らはDistortBenchを、VLMの低レベルな視覚知覚を測定し改善するためのベンチマークとして位置づけている。
VLMが高レベルのマルチモーダル課題で強みを持つ一方、低レベルの歪み知覚には課題が残っていることが明確になった。

概要: 画像の低レベルな劣化への感度が重要となる領域で、視覚言語モデル（VLM）がますます使われるようになっています。内容のモデレーション、画像復元、品質モニタリングなどがその例です。しかし、歪みの種類と深刻度を認識する能力は、いまだ十分に理解されていません。私たちは、VLMにおける参照なし歪み知覚のための診断用ベンチマーク「DistortBench」を提案します。DistortBenchは、27種類の歪み、6つの知覚カテゴリ、5つの深刻度レベルをカバーする4択問題13,500問から成ります。内訳として、25の歪みはKADID-10kの校正に継承されており、追加された2つの回転歪みは単調な角度ベースのレベルを用いています。私たちは、5つのファミリからの17のオープンウェイトモデルと、1つのプロプライエタリモデルを含む合計18のVLMを評価します。高レベルの視覚言語タスクでは強い性能を示す一方で、最良のモデルでも精度は61.9%にとどまり、人間の多数決ベースライン65.7%をわずかに下回ります（平均個別: 60.2%）。これは、現在のVLMにおける低レベルの知覚理解が依然として大きな弱点であることを示しています。さらに私たちの分析では、モデルサイズに対する弱く単調でないスケーリング、ほとんどのベース思考ペアでの性能低下、そしてモデルファミリごとの異なる深刻度に対する応答パターンが明らかになりました。私たちは、DistortBenchがVLMにおける低レベルの視覚知覚を測定し、改善するための有用なベンチマークとして機能することを期待しています。