ソーシャルエンジニアリング検出に用いるための非構造情報ソースにおける固有名詞の同定と匿名化
arXiv cs.LG / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Telegramからマルチモーダルなコンテンツを収集し、個人データを匿名化することで、GDPRおよびスペインの刑法要件を満たしつつサイバー犯罪分析データセットを構築するための準拠(コンプライアンス)可能なシステムを提案する。
- 音声からテキストを抽出するための、信号強調技術を用いた音声認識(speech-to-text)パイプラインを評価し、その結果、Parakeetが最も高い音声文字起こし性能を示すことを見出した。
- 機密情報を検出するための固有表現認識(NER)手法について、Microsoft PresidioやトランスフォーマーベースのAIモデルを含めて比較し、提案するNERソリューションが最も高いF1スコアを達成したことを示す。
- 構造的なコヒーレンス(整合性)をどれほど保持しつつ、個人情報を保護できているかを測定する匿名化指標を導入し、適法なサイバーセキュリティ研究を支援する。
- 全体として、本研究は、文字起こし、NERベースの秘匿(レダクション)、および測定可能な匿名化品質管理を組み合わせることで、ソーシャルエンジニアリング検出のための実用的なデータセット作成を目標としている。




