KidsNanny: 児童の安全のための視覚分類、物体検出、OCR、および文脈推論を統合した二段階のマルチモーダルコンテンツモデレーションパイプライン

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

KidsNannyは児童の安全を目的とした二段階のマルチモーダルコンテンツモデレーションシステムで、Stage 1ではビジョントランスフォーマーと物体検出器を組み合わせ、Stage 2ではOCRと7Bパラメータの言語モデルを用いた文脈推論を実現します。
Stage 1の出力はテキストとしてStage 2へ渡され、Stage 1のレイテンシは11.7ミリ秒、全体のエンドツーエンドのレイテンシは120ミリ秒となります。
UnsafeBenchのSexualカテゴリ（1,054枚の画像）では、Stage 1が80.27%の精度と85.39%のF1を達成し、完全なパイプラインは81.40%の精度と86.16%のF1に到達し、いくつかの指標でShieldGemma-2およびLlavaGuardを上回っています。
テキストのみのサブセットに対するテキスト認識対応評価では、KidsNannyは再現率100%、適合率75.76%を示し、OCRベースの推論がテキスト埋め込みの脅威に対する再現率と適合率を改善できる可能性を示唆する一方で、サンプル数が少ないため一般化可能性には限界があります。
本研究は、アーキテクチャと評価方法を整理・文書化することにより、児童安全のための効率的なマルチモーダルコンテンツモデレーションの発展を目指します。

アナウンスタイプ: 新規概要: 私たちは KidsNanny、児童の安全のための二段階のマルチモーダルコンテンツモデレーションアーキテクチャを提案します。ステージ1は視覚トランスフォーマー（ViT）と物体検出器を組み合わせて視覚的スクリーニングを行います（11.7 ms）；出力は生のピクセルではなくテキストとしてステージ2へルーティングされ、ステージ2はOCRとテキストベースの7B言語モデルを用いて文脈推論を行います（総パイプラインは120 ms）。UnsafeBenchのSexualカテゴリ（1,054枚の画像）を二つの評価条件で評価します：視覚情報のみの設定（Stage 1 のみを分離）と、マルチモーダル設定（Stage 1+2 の全パイプラインを評価）。Stage 1 は 11.7 ms で 80.27％の精度と 85.39％のF1を達成します；視覚情報のみのベースラインは 59.01％から 77.04％の精度の範囲です。全パイプラインは 120 ms で 81.40％の精度と 86.16％のF1を達成し、ShieldGemma-2（64.80％の精度、1,136 ms）および LlavaGuard（80.36％の精度、4,138 ms）と比較されます。テキスト認識を評価するため、二つのサブセットをフィルタします：テキスト＋ビジュアルのサブセット（257枚の画像）と、埋め込まれたテキストが主に安全性を決定するテキストのみのサブセット（44枚の画像）。テキストのみの画像では KidsNanny は100％リコール（陽性25/25、サンプルは小さい）と75.76％の適合率を達成します； ShieldGemma-2 は1,136 msでリコール84％、適合率60％を達成します。結果は、専用 OCR ベースの推論がテキスト埋め込み脅威に対して低遅延でリコールと適合率の利点を示す可能性を示唆しますが、テキストのみの小さなサブセットは一般化可能性を制限します。このアーキテクチャと評価方法論を文書化することにより、児童安全のための効率的なマルチモーダルコンテンツモデレーションに関するより広範な研究努力に貢献することを目指します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

日本企業「ブラックボックス戦略」の断末魔、AI時代に慌てても手遅れかもな

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

AI時代のトラフィックはますます予測困難に、NaaSによる柔軟な制御が不可欠

日経XTECH

KidsNanny: 児童の安全のための視覚分類、物体検出、OCR、および文脈推論を統合した二段階のマルチモーダルコンテンツモデレーションパイプライン

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日本企業「ブラックボックス戦略」の断末魔、AI時代に慌てても手遅れかもな

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

AI時代のトラフィックはますます予測困難に、NaaSによる柔軟な制御が不可欠

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer