SenBen: 説明可能なコンテンツモデレーションのためのセンシティブなシーングラフ

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、Visual Genomeスタイルのシーングラフと5つのカテゴリにまたがる16の感度タグを用いて、13,999枚の注釈付き映画フレームから構築した説明可能なコンテンツモデレーションのための大規模ベンチマークであるSenBenを提案する。
現行の画像モデレーション手法の限界に対処することを目的として、空間的なグラウンディングと解釈可能性を追加し、どのようなセンシティブな振る舞いが起きたのか、誰／何が関与しているのか、そしてシーンのどこでそれが起きたのかを特定する検出の説明を可能にする。
著者らは、語彙の不均衡に対処するための自回帰的なシーングラフ生成向けのマルチタスク学習レシピを用いて、最先端のビジョン言語モデルをコンパクトな241Mの「学生」モデルに蒸留する。
提案手法は、標準的な交差エントロピー学習と比べてSenBen Recallを6.4ポイント改善し、評価したほとんどのVLMよりも強力なグラウンディング付きシーングラフ指標をもたらす（Geminiモデルを除く）とともに、商用の安全性APIよりも優れている。
報告によれば、学生モデルは評価されたベースラインに比べて推論を7.6倍高速化し、GPUメモリ使用量も16分の1に削減しつつ、モデル全体で最高の物体検出およびキャプション生成スコアを達成する。

Abstract

コンテンツモデレーションシステムは画像を安全または危険として分類しますが、空間的な根拠付けと解釈可能性を欠いています。つまり、どのようなセンシティブな挙動が検出されたのか、誰が関与しているのか、どこで起きているのかを説明できません。私たちは、センシティブ内容のための初の大規模シーングラフベンチマークであるSensitive Benchmark（SenBen）を導入します。Visual Genomeスタイルのシーングラフ（25の物体クラス、痛み・恐怖・攻撃性・苦痛といった情動状態を含む28の属性、14の述語）で注釈された157本の映画からの13,999フレームからなり、さらに5つのカテゴリにまたがる16のセンシティビティタグを含みます。私たちは、最先端のVLMを、接尾辞ベースの物体同一性、Vocabulary-Aware Recall（VAR）Loss、および非対称損失を用いたデカップルしたQuery2Labelタグヘッドという、語彙の不均衡に対処するマルチタスク手順によって蒸留し、コンパクトな241Mの学生モデルを得ます。その結果、標準の交差エントロピー学習に比べてSenBen Recallが+6.4パーセントポイント向上します。根拠付きシーングラフの指標において、学生モデルは、Geminiモデルを除くすべての評価済みVLM、およびすべての商用安全性APIを上回ります。一方で、全モデルにおける最高の物体検出およびキャプションスコアを達成し、推論は

7.6\times

高速、GPUメモリは

16\times

少ないという性能を示します。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

SenBen: 説明可能なコンテンツモデレーションのためのセンシティブなシーングラフ

要点

Abstract

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化