EvoGuard: 実用的かつ進化する AI 生成画像検出のための拡張可能なエージェント主導の強化学習フレームワーク

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

EvoGuard は、MLLM ベースおよび非MLLM の多様な検出器を能力を意識したオーケストレーション機構を介して協調させる拡張可能なエージェント主導の強化学習フレームワークである。
自律的な計画立案、途中結果の振り返り、および複数ターンの推論を可能にし、各サンプルについてツールを選択して最終結論に到達する。
このフレームワークは、GRPO ベースのエージェント主導強化学習アルゴリズムを、低コストの二値ラベルのみで訓練され、細粒度のアノテーションを必要としない形で用い、正例/負例のバイアスを緩和しつつ最先端の精度を達成する。
新しい検出器のプラグアンドプレイ統合を提供し、訓練不要の改善と、進化する AIGI 脅威への適応を可能にする。
本研究は実用的な展開可能性を重視しており、受理され次第ソースコードを公開予定である。

要約: AI生成画像（AIGI）の急速な普及は、誤情報の深刻なリスクをもたらし、AIGI検出を極めて重要でありながら難しい課題にしています。従来の検出パラダイムは主に低レベルの特徴に依存してきましたが、近年の研究は一般的な理解能力を活用してより良い一般化を達成することに焦点を当てるようになってきました（Multimodal Large Language Models (MLLMs)）。しかし、拡張性の制限と高価なトレーニングデータのアノテーションの問題は依然として課題です。複雑で動的な現実世界の環境により適切に対処するために、AIGI検出の新しいエージェント型フレームワーク「EvoGuard」を提案します。これは、さまざまな最先端（SOTA）の市販のMLLMおよび非MLLM検出器を、呼び出し可能なツールとして統合し、能力認識型の動的オーケストレーション機構を通じてそれらをコーディネートします。自律的な計画と反省の能力を持つエージェントの力を得て、それは与えられたサンプルに対して適切なツールを賢く選択し、中間結果を振り返り、次のアクションを決定し、複数ターンの呼び出しと推論を通じて最終結論に到達します。この設計は、異種の検出器間の相補的な強みを効果的に活用し、いかなる単一モデルの限界も超えます。さらに、低コストの2値ラベルのみを使用するGRPOベースのエージェント強化学習アルゴリズムによって最適化され、細かなアノテーションへの依存を排除します。広範な実験により、EvoGuardは最先端（SOTA）精度を達成しつつ、正例と負例の間のバイアスを緩和することが示されています。さらに重要なのは、新しい検出器のプラグアンドプレイ統合を可能にし、トレーニング不要な形で全体の性能を向上させます。これは、絶えず進化するAIGIの脅威に対する高度に実用的で長期的な解決策を提供します。受理され次第、ソースコードを公開します。