HarassGuard:視覚・言語モデルによるソーシャル仮想現実におけるハラスメント行為の検出
arXiv cs.CV / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、バイオメトリクスデータに起因するプライバシーリスクを低減するため、視覚のみを用いてソーシャルVRにおける身体的ハラスメント行為を検出する、視覚・言語モデル(VLM)ベースのシステム「HarassGuard」を提案する。
- IRB承認済みのハラスメント視覚データセットの構築を報告し、プロンプトエンジニアリングと文脈情報を用いてVLMを微調整することで、ソーシャルVRのシーンにおける検出精度の向上を説明する。
- 実験結果では、従来のベースライン(LSTM/CNNおよびTransformer)に対して競争力のある性能が示され、二値分類で最大88.09%、多クラス分類で68.85%の精度が得られた。
- 著者らは、HarassGuardが微調整用サンプル数を大幅に削減(200対1,115)しながら、ベースラインと同等の性能を達成できると主張しており、データ効率の向上と文脈に基づく推論の利点が示される。




