クリックベイト検出:最大のインパクトを得るための高速推論

arXiv cs.CL / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、OpenAIのセマンティック埋め込みに、文体や情報性などの手がかりとなる6つのコンパクトなヒューリスティック特徴を組み合わせた、軽量なクリックベイト検出手法を提案しています。
  • 埋め込みはPCAで次元削減し、分類器としてXGBoostに加えてGraphSAGEやGCNを用いることで、計算効率を高めています。
  • 特徴設計を簡素化したことでF1スコアはわずかに低下する一方、グラフ系モデルが競争力のある性能を維持しながら推論時間を大幅に削減できるとしています。
  • ROC-AUCが高いことから、意思決定の閾値(decision thresholds)を変えてもクリックベイト見出しを安定して識別できる可能性が示されています。

Abstract

本研究では、OpenAIのセマンティック埋め込みと、文体的・情報的手がかりを捉える6つのコンパクトなヒューリスティック特徴量を組み合わせた、軽量なハイブリッド手法によるクリックベイト検出を提案する。効率を向上させるために、埋め込みはPCAで次元削減し、XGBoost、GraphSAGE、GCNの各分類器で評価する。特徴設計を簡略化したことによりF1スコアがわずかに低下する一方で、グラフベースのモデルは、推論時間を大幅に削減しつつ競争力のある性能を達成する。さらに、高いROC--AUC値は識別能力の強さを示しており、異なる決定閾値のもとでもクリックベイト見出しを信頼性高く検出できることを裏付けている。