ソーシャルエンジニアリング検出に用いるための非構造情報ソースにおける固有名詞の同定と匿名化

arXiv cs.LG / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Telegramからマルチモーダルなコンテンツを収集し、個人データを匿名化することで、GDPRおよびスペインの刑法要件を満たしつつサイバー犯罪分析データセットを構築するための準拠（コンプライアンス）可能なシステムを提案する。
音声からテキストを抽出するための、信号強調技術を用いた音声認識（speech-to-text）パイプラインを評価し、その結果、Parakeetが最も高い音声文字起こし性能を示すことを見出した。
機密情報を検出するための固有表現認識（NER）手法について、Microsoft PresidioやトランスフォーマーベースのAIモデルを含めて比較し、提案するNERソリューションが最も高いF1スコアを達成したことを示す。
構造的なコヒーレンス（整合性）をどれほど保持しつつ、個人情報を保護できているかを測定する匿名化指標を導入し、適法なサイバーセキュリティ研究を支援する。
全体として、本研究は、文字起こし、NERベースの秘匿（レダクション）、および測定可能な匿名化品質管理を組み合わせることで、ソーシャルエンジニアリング検出のための実用的なデータセット作成を目標としている。

note

note

note

note

note