ToxiTrace:説明可能な中国語の有害性検出のための勾配整合型トレーニング

arXiv cs.CL / 2026/4/15

📰 ニュース

要点

  • ToxiTrace は、中国語の有害性検出における説明可能性を重視したアプローチであり、文単位のラベルを超えて、読み取り可能で連続した有害性の根拠となるスパンを抽出する。

Abstract

既存の中国語の有害コンテンツ検出手法は主に文単位の分類を対象としていますが、しばしば読みやすく連続した有害な証拠スパンを提供できません。そこで本研究では、BERTスタイルのエンコーダ向けの説明可能性志向の手法である\textbf{ToxiTrace} を提案します。これは3つのコンポーネントから構成されます。 (1) \textbf{CuSA}:エンコーダから得られる重要度(saliency)手がかりを、軽量なLLMによるガイダンスで微細な有害スパンへ洗練化します。 (2) \textbf{GCLoss}:トークン単位の重要度を有害な証拠へ集中させ、無関係な活性を抑制する、勾配制約付きの目的関数です。 (3) \textbf{ARCL}:サンプル固有の対照的な推論ペアを構築し、有害コンテンツと非有害コンテンツの意味的な境界をより鋭くします。 実験の結果、ToxiTraceは分類精度と有害スパン抽出を向上させるだけでなく、効率的なエンコーダベース推論を維持し、人間にとってより一貫して読みやすい説明を生成することが示されました。モデルは https://huggingface.co/ArdLi/ToxiTrace で公開しています。