要旨: 大規模言語モデル(LLM)は、さまざまなタスクにおいて目覚ましい能力を示してきました。しかし、人間らしい文章を生成する能力は、潜在的な悪用への懸念を引き起こしています。これは、LLMが生成したテキストを検出するための信頼性が高く効果的な手法の必要性を強調しています。本論文では、LLMが生成したテキスト検出に Implicit Reward Models(暗黙の報酬モデル)を活用する、新しいゼロショット手法である IRM を提案します。このような暗黙の報酬モデルは、公開されている指示チューニング済みモデルおよびベースモデルから導出できます。従来の報酬ベース手法は、嗜好(プレファレンス)の構築と、タスク固有のファインチューニングに依存していました。これに対し、IRM は嗜好の収集や追加の学習を必要としません。DetectRL ベンチマークで IRM を評価し、IRM が優れた検出性能を達成できることを示します。さらに、LLMが生成したテキスト検出において、既存のゼロショット手法および教師あり手法を上回ります。
暗黙のリワードモデルによるLLM生成テキストのゼロショット検出
arXiv cs.CL / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、暗黙のリワードモデルを用いてLLM生成テキストを検出するゼロショット手法「IRM」を提案しています。
- IRMは、公開されている命令チューニング済みモデルやベースモデルから構築でき、タスク依存の専門的な微調整に頼らない点が特徴です。
- 従来の報酬ベース手法が必要としていた嗜好(プレファレンス)の構築や追加学習は不要で、嗜好データ収集や追加学習を行わずに済みます。
- DetectRLベンチマークでの評価では、既存のゼロショットおよび教師あり手法を上回る検出性能が示されています。



