LLMの出力の検出可能性とタスク性能は共同最適化できる

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの出力の検出可能性（透明性や説明責任のための用途など）を、下流タスク性能とは別に考えるのではなく同時に改善できると主張している。
PUPPETという枠組みを提案し、強化学習による微調整で2種類の報酬（検出器からの「機械生成である可能性」などの信号と、タスク固有の評価指標）を組み合わせて最適化する。
長文QA、要約、エッセイ作成での実験では、PUPPETにより学習したモデルがウォーターマーキング手法と競争力のある検出可能性を達成しつつ、下流タスクではそれらを上回ることが示されている。
最適化は効率的で、数千サンプルと1〜2GPU時間程度で実現できるとされ、効果は領域外タスク、異なるLLMファミリ、モデル規模にわたって一貫すると報告されている。
さらに、言い換え（パラフレーズ）攻撃に対しても頑健であるとされ、実運用上の有用性が示唆されている。

要旨: 大規模言語モデル（LLM）を導入する際の透明性と説明責任を確保するには、機械生成テキストを検出することが不可欠です。検出アプローチの中でも、ウォーターマーキングは設計上、統計的に信頼できる方法です。つまり、トークン分布にバイアスをかけることで、検出可能な信号をLLMの出力に埋め込みます。しかし、ウォーターマーク付きのLLMは、下流タスクにおいてしばしば性能が低下することが報告されています。私たちは、PUPPETという枠組みを提案します。PUPPETは、強化学習によってLLMを微調整し、より検出されやすく、かつ下流タスクでもより良い性能を発揮するテキストを生成させます。報酬関数として2種類を用います。機械クラスである可能性を出力する検出器と、タスク固有の指標を測定する評価器です。長文QA、要約、エッセイ作成に関する実験により、PUPPETで訓練されたLLMは、ウォーターマーキング手法と競合する高い検出可能性を達成しつつ、下流タスクではそれらよりも優れていることが示されます。分析によれば、この最適化は、1〜2GPU時間で、わずか数千サンプルのみで効率的に実行できます。さらに、この改善は、領域外タスク、異なるLLMファミリ、モデルサイズにわたって一貫しており、言い換え攻撃にも頑健です。