Abstract
コンテンツモデレーションシステムは画像を安全または危険として分類しますが、空間的な根拠付けと解釈可能性を欠いています。つまり、どのようなセンシティブな挙動が検出されたのか、誰が関与しているのか、どこで起きているのかを説明できません。私たちは、センシティブ内容のための初の大規模シーングラフベンチマークであるSensitive Benchmark(SenBen)を導入します。Visual Genomeスタイルのシーングラフ(25の物体クラス、痛み・恐怖・攻撃性・苦痛といった情動状態を含む28の属性、14の述語)で注釈された157本の映画からの13,999フレームからなり、さらに5つのカテゴリにまたがる16のセンシティビティタグを含みます。私たちは、最先端のVLMを、接尾辞ベースの物体同一性、Vocabulary-Aware Recall(VAR)Loss、および非対称損失を用いたデカップルしたQuery2Labelタグヘッドという、語彙の不均衡に対処するマルチタスク手順によって蒸留し、コンパクトな241Mの学生モデルを得ます。その結果、標準の交差エントロピー学習に比べてSenBen Recallが+6.4パーセントポイント向上します。根拠付きシーングラフの指標において、学生モデルは、Geminiモデルを除くすべての評価済みVLM、およびすべての商用安全性APIを上回ります。一方で、全モデルにおける最高の物体検出およびキャプションスコアを達成し、推論は7.6\times高速、GPUメモリは16\times少ないという性能を示します。