Detection of Hate and Threat in Digital Forensics: A Case-Driven Multimodal Approach

arXiv cs.AI / 4/13/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • デジタル・フォレンジックで扱う画像、スキャン文書、文脈レポートといった異種証拠を前提に、ヘイトや脅迫などの兆候を検出するケース駆動型のマルチモーダル手法を提案している。
  • フレームワークは「埋め込みテキスト」「関連する文脈テキスト」「画像のみ」のようにテキスト根拠の有無と出所を明示的に特定し、その構成に応じて最適な推論経路(テキスト解析/マルチモーダル融合/画像のみ推論)を選択する。
  • 画像入力ではViTバックボーンを備えたvision language modelにより意味推論を行い、証拠の有無に応じて推論を条件付けることで、根拠のないモダリティ仮定を避ける設計になっている。
  • フォレンジックの意思決定に近い形でエビデンシア・トレーサビリティ(どの根拠に基づくか)と解釈可能性を高め、異なる証拠シナリオでも一貫した挙動が得られたと報告している。

Abstract

Digital forensic investigations increasingly rely on heterogeneous evidence such as images, scanned documents, and contextual reports. These artifacts may contain explicit or implicit expressions of harm, hate, threat, violence, or intimidation, yet existing automated approaches often assume clean text input or apply vision models without forensic justification. This paper presents a case-driven multimodal approach for hate and threat detection in forensic analysis. The proposed framework explicitly determines the presence and source of textual evidence, distinguishing between embedded text, associated contextual text, and image-only evidence. Based on the identified evidence configuration, the framework selectively applies text analysis, multimodal fusion, or image-only semantic reasoning using vision language models with vision transformer backbones (ViT). By conditioning inference on evidence availability, the approach mirrors forensic decision-making, improves evidentiary traceability, and avoids unjustified modality assumptions. Experimental evaluation on forensic-style image evidence demonstrates consistent and interpretable behavior across heterogeneous evidence scenarios.