広告

イタリア語テキスト向けに最適化された小型(0.1Bパラメータ)のスパム検出モデル

Reddit r/LocalLLaMA / 2026/4/2

📰 ニュースTools & Practical UsageModels & Research

要点

  • 小規模(約0.1Bパラメータ)のスパム検出モデルを、イタリア語テキストをスパムか否かに分類する目的で特別に微調整しています。
  • このモデルは、迷惑広告、詐欺/マルチ商法、フィッシング、誤解を招く内容、マルウェア/有害リンク、アダルト/露骨なコンテンツといった一般的なスパムカテゴリを対象にしています。
  • さらに、過度な大文字や句読点の使用など、注目を引くパターンも検出します。
  • ユーザーはArtifexライブラリを介して、language="italian" を指定し、スパム/非スパムのスコアを算出したい入力テキストを渡すことでモデルを実行できます。
  • 想定される用途は、メール、メッセージング、その他のテキストコミュニケーションシステムにおける一次フィルタとしての利用であり、人のレビューなしでのハイステークスな導入は避けるよう警告しています。

https://huggingface.co/tanaos/tanaos-spam-detection-italian

イタリア語のテキストからスパム内容を認識するために、特に微調整(fine-tuned)された小型のスパム検出モデルです。以下の種類のコンテンツはスパムとみなされます:

  1. 望まれていない商業広告、または非営利の布教(プロゼリタイジング)。
  2. 詐欺的な仕組み。いわゆる「すぐに金持ちになれる」詐欺やピラミッドスキームを含みます。
  3. フィッシングの試み。不自然なオファーや発表。
  4. 欺瞞的または誤解を招く情報を含むコンテンツ。
  5. マルウェア、または有害なリンク。
  6. アダルトコンテンツ、または露骨な素材。
  7. 注目を集めるための、大文字や句読点の過剰な使用。

使い方

このモデルは Artifexライブラリ を通じて使用します:

以下でArtifexをインストールします:

pip install artifex 

以下でモデルを使用します:

from artifex import Artifex spam_detection = Artifex().spam_detection(language="italian") print(spam_detection("Hai vinto un iPhone 16! Clicca qui per ottenere il tuo premio.")) # >>> [{'label': 'spam', 'score': 0.9989}] 

想定される用途

このモデルは次のために意図されています:

  • テキストがイタリア語である場合に限り、メールシステム、メッセージングアプリ、またはその他のテキストベースの通信プラットフォームに対する、最初の層のスパムフィルタとして機能すること。
  • テキストをスパム/スパムでないとして分類することで、不要または有害なメッセージを減らすことに役立つこと。

意図されていない用途:

  • 誤分類が、人の追加確認なしで重大な結果につながり得るような、高リスク(high-stakes)なシナリオでの使用。
投稿者 /u/Ok_Hold_5385
[link] [コメント]

広告