KidsNanny: 児童の安全のための視覚分類、物体検出、OCR、および文脈推論を統合した二段階のマルチモーダルコンテンツモデレーションパイプライン
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- KidsNannyは児童の安全を目的とした二段階のマルチモーダルコンテンツモデレーションシステムで、Stage 1ではビジョントランスフォーマーと物体検出器を組み合わせ、Stage 2ではOCRと7Bパラメータの言語モデルを用いた文脈推論を実現します。
- Stage 1の出力はテキストとしてStage 2へ渡され、Stage 1のレイテンシは11.7ミリ秒、全体のエンドツーエンドのレイテンシは120ミリ秒となります。
- UnsafeBenchのSexualカテゴリ(1,054枚の画像)では、Stage 1が80.27%の精度と85.39%のF1を達成し、完全なパイプラインは81.40%の精度と86.16%のF1に到達し、いくつかの指標でShieldGemma-2およびLlavaGuardを上回っています。
- テキストのみのサブセットに対するテキスト認識対応評価では、KidsNannyは再現率100%、適合率75.76%を示し、OCRベースの推論がテキスト埋め込みの脅威に対する再現率と適合率を改善できる可能性を示唆する一方で、サンプル数が少ないため一般化可能性には限界があります。
- 本研究は、アーキテクチャと評価方法を整理・文書化することにより、児童安全のための効率的なマルチモーダルコンテンツモデレーションの発展を目指します。
アナウンスタイプ: 新規
概要: 私たちは KidsNanny、児童の安全のための二段階のマルチモーダルコンテンツモデレーションアーキテクチャを提案します。ステージ1は視覚トランスフォーマー(ViT)と物体検出器を組み合わせて視覚的スクリーニングを行います(11.7 ms);出力は生のピクセルではなくテキストとしてステージ2へルーティングされ、ステージ2はOCRとテキストベースの7B言語モデルを用いて文脈推論を行います(総パイプラインは120 ms)。UnsafeBenchのSexualカテゴリ(1,054枚の画像)を二つの評価条件で評価します:視覚情報のみの設定(Stage 1 のみを分離)と、マルチモーダル設定(Stage 1+2 の全パイプラインを評価)。Stage 1 は 11.7 ms で 80.27%の精度と 85.39%のF1を達成します;視覚情報のみのベースラインは 59.01%から 77.04% の精度の範囲です。全パイプラインは 120 ms で 81.40%の精度と 86.16%のF1を達成し、ShieldGemma-2(64.80%の精度、1,136 ms)および LlavaGuard(80.36%の精度、4,138 ms)と比較されます。テキスト認識を評価するため、二つのサブセットをフィルタします:テキスト+ビジュアルのサブセット(257枚の画像)と、埋め込まれたテキストが主に安全性を決定するテキストのみのサブセット(44枚の画像)。テキストのみの画像では KidsNanny は100%リコール(陽性25/25、サンプルは小さい)と75.76%の適合率を達成します; ShieldGemma-2 は1,136 msでリコール84%、適合率60%を達成します。結果は、専用 OCR ベースの推論がテキスト埋め込み脅威に対して低遅延でリコールと適合率の利点を示す可能性を示唆しますが、テキストのみの小さなサブセットは一般化可能性を制限します。このアーキテクチャと評価方法論を文書化することにより、児童安全のための効率的なマルチモーダルコンテンツモデレーションに関するより広範な研究努力に貢献することを目指します。