広告

EnsemJudge:多様なモデルアンサンブルによる中国LLM生成テキスト検出の信頼性向上

arXiv cs.CL / 2026/3/31

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、ドメイン外入力や敵対的入力といった現実の条件下で、中国LLM生成テキストを検出するための堅牢な枠組みであるEnsemJudgeを提案する。
  • それぞれに適した戦略に加えて、多様なモデル構成要素にまたがるアンサンブル投票を活用することで、単一モデル手法を超えて検出の信頼性を高める。
  • 著者らは、NLPCC2025 Shared Task 1の中国語データセットを用いてEnsemJudgeを訓練・評価し、先行研究の多くが主に英語に焦点を当てていたというギャップに取り組む。
  • 本システムはベースライン手法を上回り、タスクで1位を獲得したと報告されており、中国語テキスト検出に対する高い有効性が示される。
  • コードは公開されており、他の研究者や実務者がこの手法を再現し、発展させることを可能にする。

Abstract

大規模言語モデル(LLM)は、その強力なテキスト生成能力により、さまざまな領域で広く適用されています。LLMによって生成された文章はしばしば人が書いた文章に似ている一方で、その悪用は重大な社会的リスクにつながる可能性があります。このような文章を検出することは、LLMの悪用を抑制するための重要な技術であり、多くの検出手法がさまざまなデータセットにおいて有望な結果を示しています。しかし、現実のシナリオでは、ドメイン外の入力や敵対的サンプルが含まれることが多く、その結果として検出手法の性能がさまざまな度合いで影響を受ける可能性があります。さらに、既存の研究の多くは英語テキストに焦点を当てており、中国語テキストの検出に取り組んだ研究は限られています。本研究では、特化した戦略とアンサンブル投票メカニズムを組み込むことで、中国語のLLM生成テキストを頑健に検出するための枠組みEnsemJudgeを提案します。私たちは、NLPCC2025 Shared Task 1によって提供された、慎重に構築された中国語データセットを用いて、システムを訓練し評価しました。提案手法はすべてのベースライン手法を上回り、タスクにおいて1位を達成し、中国語のLLM生成テキスト検出における有効性と信頼性を示しました。コードは https://github.com/johnsonwangzs/MGT-Mini で公開しています。

広告