不正使用検知パイプラインにおける大規模言語モデル

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデル(LLM)を、不正使用検知ライフサイクル(ADL)の全工程に統合していく方法を調査し、静的な分類器や大量のラベリングだけでは扱いきれない、ますます複雑化するオンライン上の不正使用に対応する可能性を論じます。
  • ADLを4つの段階――ラベル&特徴生成、検知、レビュー&異議申し立て、監査&ガバナンス――に分解し、それぞれの段階について、新たに登場している研究動向と業界での実践を総合します。
  • 著者らは、本番運用を見据えたアーキテクチャ上の考慮事項を説明し、文脈に基づく推論、ポリシー解釈、説明文の生成、マルチモーダル理解といった点でLLMが付加価値をもたらす領域を検討します。
  • また、本論文は、LLM駆動型の不正使用検知における限界と運用上の課題を強調し、レイテンシ、コスト効率、決定性(determinism)、対敵(アドバーサリアル)耐性、公平性に焦点を当てます。
  • 結論として、大規模でガバナンスされた安全システムにおいて、LLMを信頼でき説明責任のある構成要素にするために必要な主要な今後の研究課題を提示します。

要旨: オンラインでの虐待(abuse)は、毒性のある言語、嫌がらせ、操作、詐欺的な振る舞いにまで及び、ますます複雑化しています。静的な分類器や、労力を要するラベリングに依存する従来の機械学習アプローチでは、脅威パターンの進化や、微妙で多様なポリシー要件に追随するのが難しくなっています。大規模言語モデル(Large Language Models)は、文脈に基づく推論、ポリシーの解釈、説明文の生成、そしてクロスモーダル理解といった新たな能力を提供し、現代の安全システムの複数の段階を支えることを可能にします。本調査は、LLMが虐待検知ライフサイクル(Abuse Detection Lifecycle: ADL)へどのように統合されているかを、ライフサイクル志向で分析するものです。ここでADLは、(I)ラベル生成と特徴生成、(II)検出、(III)レビューと異議申し立て、(IV)監査とガバナンス、の4段階にわたって定義します。各段階について、萌芽的な研究と産業界の実務を統合して整理し、プロダクション導入のためのアーキテクチャ上の考慮点を示し、LLM駆動アプローチの強みと限界を検討します。最後に、遅延、費用対効果、決定性、敵対的ロバスト性、公平性といった主要な課題を概説するとともに、大規模な虐待検知およびガバナンス・システムにおいて、LLMを信頼でき、説明責任のある構成要素として運用可能にするために必要な今後の研究方向性を議論します。