DeepReviewer 2.0:監査可能な科学的査読のためのトレーサブルなエージェント型システム

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者らはDeepReviewer 2.0を意思決定の代理ではなく、支援ツールとして位置づけており、倫理に配慮を要する検査を含む残されたギャップを認めている。

Abstract

自動化された査読はしばしば、流暢な批評を生成することとして語られますが、査読者や分野委員は \\emph{監査可能} な判断を必要とします。つまり、懸念がどこに当てはまるのか、どのような証拠がそれを裏づけるのか、そして具体的にどのような追加対応が求められるのかです。DeepReviewer~2.0 は、出力契約(output contract)を中心に構築された、プロセス制御型のエージェント的査読システムです。これは、アンカー付き注釈、局所化された証拠、実行可能なフォローアップ手順を含む \\textbf{追跡可能な査読パッケージ} を生成し、最小限の追跡可能性およびカバレッジの予算を満たした場合にのみ出力します。具体的には、まず、原稿のみで構成される主張—証拠—リスクの台帳と検証アジェンダを作成し、その後、アジェンダ駆動の検索を行い、エクスポート用のゲートのもとでアンカー付きの批評を書きます。3 つの固定プロトコルのもとでの ICLR~2025 採択 134 件の投稿において、\emph{微調整なしの 196B} モデルが DeepReviewer~2.0 を動かすと、Gemini-3.1-Pro-preview を上回り、重大な問題のカバレッジ(厳格基準)を 37.26\%(23.57\% 対)へと改善し、さらに人間の査読委員会に対するマイクロ平均のブラインド比較で 71.63\% を獲得しました。また、我々のプール内では自動システムの中で 1 位の順位にありました。私たちは DeepReviewer~2.0 を意思決定の代理ではなく、支援ツールとして位置づけ、倫理に配慮した検査など、残されたギャップについても言及します。