動画生成モデルにおける成人コンテンツ検出のための潜在空間プロービング

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、AI動画生成における成人・性的に露骨なコンテンツのモデレーションで、プロンプトまたはピクセル空間に依存する既存手法の限界を、モデル内部の潜在表現へ検出を移すことで解決しようとする。
CogVideoXの拡散モデル推論中にデノイズされた潜在を介入し、軽量な分類器を付加してリアルタイム検出を行う「潜在空間プロービング」枠組みを提案する。
成人サイトとYouTubeから収集した11,039本の10秒クリップ（違反5,086・非違反5,953）からなる大規模な2値データセットを構築し、学習と評価に用いる。
2つの軽量プロービング分類器構成を提示し、保持したテストセットでF1=97.29%を達成しつつ、推論オーバーヘッドは約4–6msに抑えられる。
得られた結果は、潜在空間の信号が検出精度だけでなくコスト面でも改善につながり得ることを示している。

概要: AIを活用した動画生成システムの急速な普及により、コンテンツモデレーションには大きな課題が生じており、特に成人向けおよび性的に露骨な内容に関して顕著です。既存の検出手法は、プロンプトまたはデコードされたピクセル空間出力のいずれかに基づいて動作します。したがって、どちらのアプローチも、生成過程で形成される豊かな内部表現を見通せません。本論文では、CogVideoXの動画拡散モデルが推論中に生成する除ノイズ済み潜在表現をインターセプトし、それに軽量な分類器を取り付けてリアルタイムの成人コンテンツ検出を行う、新しい潜在空間プロービング（探索）フレームワークを提案します。本研究を支えるために、成人向けWebサイトおよびYouTubeからそれぞれ収集した10秒間の動画クリップ11039本から成る大規模な二値データセット（違反: 5086、非違反: 5953）を構築します。軽量なプロービング分類器の2つのアーキテクチャを導入します。データセット上でそれらを学習し、評価します。本研究は、潜在空間のシグナルが有害コンテンツ検出に対して強力な識別特徴を符号化していることを示しており、保持したテストセットにおいてF1が97.29%に達し、オーバーヘッドは4〜6msの範囲でした。本結果は、潜在空間を探索することで、検出性能だけでなくコストの面でも改善が得られることを示唆しています。