HarassGuard：視覚・言語モデルによるソーシャル仮想現実におけるハラスメント行為の検出

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、バイオメトリクスデータに起因するプライバシーリスクを低減するため、視覚のみを用いてソーシャルVRにおける身体的ハラスメント行為を検出する、視覚・言語モデル（VLM）ベースのシステム「HarassGuard」を提案する。
IRB承認済みのハラスメント視覚データセットの構築を報告し、プロンプトエンジニアリングと文脈情報を用いてVLMを微調整することで、ソーシャルVRのシーンにおける検出精度の向上を説明する。
実験結果では、従来のベースライン（LSTM/CNNおよびTransformer）に対して競争力のある性能が示され、二値分類で最大88.09%、多クラス分類で68.85%の精度が得られた。
著者らは、HarassGuardが微調整用サンプル数を大幅に削減（200対1,115）しながら、ベースラインと同等の性能を達成できると主張しており、データ効率の向上と文脈に基づく推論の利点が示される。