AI Navigate

正確性を超えて:有害コンテンツ検出における説明可能性主導の分析

arXiv cs.AI / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Civil Comments データセットで訓練された RoBERTa ベースの有害コンテンツ検出器の説明可能性主導の分析を提示し、予測がどのように行われるかを理解することを目的とし、単にどれだけ正確かではないことを示す。
  • 二つの事後説明法、Shapley Additive Explanations(SHAP)と Integrated Gradients(IG)を適用し、正しい予測と系統的な失敗に対する寄与度を比較する。
  • 強力な性能(AUC 0.93、精度 0.94)にもかかわらず、説明が分岐する局面があることが明らかになり、Integrated Gradients は文脈的寄与を拡散した説明を生み出し、Shapley Additive Explanations は明示的な語彙的手掛かりに焦点を当て、偽陰性と偽陽性に寄与する。
  • 本研究は、説明可能な AI は人間を取り入れたモデレーションを支援し、透明性と診断リソースとして機能する可能性があると主張し、主に性能を向上させることを目的とするものではない。

要約: オンラインプラットフォームを監視するために自動化された有害コンテンツ検出システムが頻繁に使用されている一方で、モデレーターやエンドユーザーはしばしば予測の背後にある論理を理解できません。近年の研究は分類精度の向上に焦点を当てる一方で、神経モデルがなぜコンテンツを有害と識別するのかを理解することにはあまり焦点が置かれていません。特に境界的・文脈的・政治的に敏感な状況においてはなおさらです。本研究では、Civil Commentsデータセットで訓練されたニューラル有害コンテンツ検出モデルを、説明可能性を軸として分析します。Shapley Additive Explanations(Shapley加法的説明)とIntegrated Gradientsという2つの代表的な事後説明手法を用いて、RoBERTaベースの分類器の挙動を正しい予測と体系的な失敗ケースの両方で分析します。曲線下面積0.93、正確さ0.94という強力な全体性能にもかかわらず、分析は総合評価指標だけからは観察できない限界を示しています。Integrated Gradientsはより拡散的な文脈的寄与度を抽出するように見え、一方でShapley Additive Explanationsは明示的な語彙的手がかりに対してより焦点を絞った寄与を抽出します。この出力の乖離は偽陰性と偽陽性の両方として現れます。質的ケーススタディは、間接的な有害性、語彙の過剰帰属、政治的言説といった反復的な失敗モードを明らかにします。結果は、説明可能なAIがモデルの不確実性を露呈させ、自動決定の解釈可能な根拠を高めることにより、人間を含むモデレーションを促進できることを示唆します。最も重要なのは、この作業がオンライン有害コンテンツ検出システムの透明性と診断リソースとしての説明可能性の役割を強調し、性能を高めるレバーとしてではないという点です。