私は ヒューリスティックに基づく配信可能性インテリジェンス を使って「Month 2 Tanking」問題を解決するための実験をしています。
データサイエンスの課題: ほとんどのツールは「スパム語」に対して単純な正規表現を使用します。 私の仮説は 一意性の分散 と ヘッダーの整合性(特に「From」と「Return-Path」のベクトル差)がシャドウバンの予測にとってはるかに強力な指標である、ということです。
現在のスタック:
- モデル: 現在、14個のカスタム特徴量(メタデータ + コンテンツ)を用いた XGBoost を使用しています。
- データセット: 評判の低下が検証されたドメインからの5,000通のメールのラベル付きデータセット。
ボトルネック: パフォーマンスの天井に直面しています。 XGBoost が無視する「戦術的攻撃性」マーカーを捉えるために 軽量トランスフォーマー(DistilBERT/TinyBERT) への移行を検討しています。しかし、送信前の高ボリュームチェック時の 推論遅延 を心配しています。
質問: NLP/分類に携わる方へ: リアルタイム検査の低遅延要件と 文脈的ニュアンス検出 のバランスをどのように取っていますか? このニッチな分野でのモデル剪定や特定の特徴量エンジニアリングについての考えをぜひお聞かせください。
[リンク] [コメント]