SenBen: 説明可能なコンテンツモデレーションのためのセンシティブなシーングラフ

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、Visual Genomeスタイルのシーングラフと5つのカテゴリにまたがる16の感度タグを用いて、13,999枚の注釈付き映画フレームから構築した説明可能なコンテンツモデレーションのための大規模ベンチマークであるSenBenを提案する。
  • 現行の画像モデレーション手法の限界に対処することを目的として、空間的なグラウンディングと解釈可能性を追加し、どのようなセンシティブな振る舞いが起きたのか、誰/何が関与しているのか、そしてシーンのどこでそれが起きたのかを特定する検出の説明を可能にする。
  • 著者らは、語彙の不均衡に対処するための自回帰的なシーングラフ生成向けのマルチタスク学習レシピを用いて、最先端のビジョン言語モデルをコンパクトな241Mの「学生」モデルに蒸留する。
  • 提案手法は、標準的な交差エントロピー学習と比べてSenBen Recallを6.4ポイント改善し、評価したほとんどのVLMよりも強力なグラウンディング付きシーングラフ指標をもたらす(Geminiモデルを除く)とともに、商用の安全性APIよりも優れている。
  • 報告によれば、学生モデルは評価されたベースラインに比べて推論を7.6倍高速化し、GPUメモリ使用量も16分の1に削減しつつ、モデル全体で最高の物体検出およびキャプション生成スコアを達成する。

Abstract

コンテンツモデレーションシステムは画像を安全または危険として分類しますが、空間的な根拠付けと解釈可能性を欠いています。つまり、どのようなセンシティブな挙動が検出されたのか、誰が関与しているのか、どこで起きているのかを説明できません。私たちは、センシティブ内容のための初の大規模シーングラフベンチマークであるSensitive Benchmark(SenBen)を導入します。Visual Genomeスタイルのシーングラフ(25の物体クラス、痛み・恐怖・攻撃性・苦痛といった情動状態を含む28の属性、14の述語)で注釈された157本の映画からの13,999フレームからなり、さらに5つのカテゴリにまたがる16のセンシティビティタグを含みます。私たちは、最先端のVLMを、接尾辞ベースの物体同一性、Vocabulary-Aware Recall(VAR)Loss、および非対称損失を用いたデカップルしたQuery2Labelタグヘッドという、語彙の不均衡に対処するマルチタスク手順によって蒸留し、コンパクトな241Mの学生モデルを得ます。その結果、標準の交差エントロピー学習に比べてSenBen Recallが+6.4パーセントポイント向上します。根拠付きシーングラフの指標において、学生モデルは、Geminiモデルを除くすべての評価済みVLM、およびすべての商用安全性APIを上回ります。一方で、全モデルにおける最高の物体検出およびキャプションスコアを達成し、推論は7.6\times高速、GPUメモリは16\times少ないという性能を示します。