俳優分析のための日本語Webレビューにおける著者帰属推定の基礎研究

arXiv cs.CL / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、脅威インテリジェンスにおけるアクター分析を支えるため、文体特徴に基づく著者帰属推定の適用可能性を検証し、まずは一般公開ソースの日本語レビューで検証を行いました。
  • 実験では、TF-IDF+ロジスティック回帰、BERT埋め込み+ロジスティック回帰、BERTファインチューニング、メトリック学習+k-NNの4手法を、Rakuten Ichibaのレビューのデータセットで比較しました。
  • BERTファインチューニングが全体として最良の性能を示した一方で、数百人規模まで著者数を増やすと学習が不安定になり、TF-IDF+LRは精度・安定性・計算コストの面で優位でした。
  • Top-k評価により、候補のスクリーニングが有用であることが示され、誤分類の主因は定型文、トピック依存、短いテキスト長であることがエラー分析で明らかになりました。
  • 本研究は、ダークウェブ・フォーラムへの将来的な適用を見据えた基礎段階として位置付けられており、スケーリングや頑健性に向けた次の課題が示唆されています。

概要: 本研究では、様式(スタイル)的特徴に基づく著者帰属(authorship attribution)の適用可能性を、脅威インテリジェンスにおける俳優(actor)分析を支援するために検討する。将来的にダークウェブフォーラムへの適用を見据えた基礎的なステップとして、クリーンウェブ上の情報源から得た日本語のレビューデータを用いて実験を行った。Rakuten Ichiba のレビューからデータセットを構築し、4つの手法を比較した: ロジスティック回帰を用いた TF-IDF(TF-IDF+LR)、ロジスティック回帰を用いた BERT 埋め込み(BERT-Emb+LR)、BERT のファインチューニング(BERT-FT)、および k 近傍法によるメトリック学習(Metric+kNN)。結果として、BERT-FT が最良の性能を示したが、著者数が数百にスケールすると学習が不安定になることが分かった。この場合、TF-IDF+LR は、精度・安定性・計算コストの観点で優れていることが示された。さらに、Top-k 評価により候補のスクリーニングの有用性が確認され、誤り分析から、定型文、トピック依存性、短いテキスト長が誤分類の主な要因であることが明らかになった。