Clickbait detection: quick inference with maximum impact

arXiv cs.CL / 4/10/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • 論文では、OpenAIのセマンティック埋め込みに6つのコンパクトなヒューリスティック特徴(文体・情報性の手がかり)を組み合わせた軽量なクリックベイト検出手法を提案しています。
  • 埋め込みはPCAで次元削減し、分類器としてXGBoostに加えGraphSAGEやGCNを用いることで、計算効率を高めています。
  • 特徴設計を簡素化したことでF1スコアはわずかに低下する一方、グラフ系モデルが競争力のある性能を保ちながら推論時間を大幅に削減できるとしています。
  • ROC-AUCが高いことから、閾値(decision thresholds)を変えてもクリックベイト見出しを安定して識別できる可能性が示されています。

Abstract

We propose a lightweight hybrid approach to clickbait detection that combines OpenAI semantic embeddings with six compact heuristic features capturing stylistic and informational cues. To improve efficiency, embeddings are reduced using PCA and evaluated with XGBoost, GraphSAGE, and GCN classifiers. While the simplified feature design yields slightly lower F1-scores, graph-based models achieve competitive performance with substantially reduced inference time. High ROC--AUC values further indicate strong discrimination capability, supporting reliable detection of clickbait headlines under varying decision thresholds.