要旨: デジタル・フォレンジック調査は、画像、スキャン文書、状況報告書といった異種の証拠にますます依存するようになっている。これらの成果物には、危害、憎悪、脅威、暴力、または威嚇の明示的または暗黙的な表現が含まれる可能性があるが、既存の自動化手法の多くは、クリーンなテキスト入力を前提とするか、フォレンジックとしての正当化なしにビジョンモデルを適用している。本論文は、フォレンジック分析における憎悪および脅威検出のための、事例駆動型のマルチモーダル手法を提案する。提案する枠組みは、埋め込まれたテキスト、関連する状況テキスト、そして画像のみの証拠を区別しつつ、テキスト証拠の存在とその出所を明示的に特定する。特定された証拠の構成に基づき、枠組みは、テキスト分析、マルチモーダル融合、または画像のみの意味推論を、ビジョン・トランスフォーマー・バックボーン(ViT)を備えたビジョン・言語モデルを用いて選択的に適用する。証拠の利用可能性に応じて推論を条件付けすることで、このアプローチはフォレンジックにおける意思決定を模倣し、証拠のトレーサビリティを向上させ、根拠のないモダリティ前提を回避する。フォレンジック風の画像証拠に対する実験評価により、異種の証拠シナリオ全体で一貫した、かつ解釈可能な振る舞いが示された。
デジタル・フォレンジックにおけるヘイトおよび脅迫の検出:ケース駆動型マルチモーダル手法
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- デジタル・フォレンジックで扱う画像、スキャン文書、文脈レポートといった異種証拠を前提に、ヘイトや脅迫などの兆候を検出するケース駆動型のマルチモーダル手法を提案している。
- フレームワークは「埋め込みテキスト」「関連する文脈テキスト」「画像のみ」のようにテキスト根拠の有無と出所を明示的に特定し、その構成に応じて最適な推論経路(テキスト解析/マルチモーダル融合/画像のみ推論)を選択する。
- 画像入力ではViTバックボーンを備えたvision language modelにより意味推論を行い、証拠の有無に応じて推論を条件付けることで、根拠のないモダリティ仮定を避ける設計になっている。
- フォレンジックの意思決定に近い形でエビデンシア・トレーサビリティ(どの根拠に基づくか)と解釈可能性を高め、異なる証拠シナリオでも一貫した挙動が得られたと報告している。
