概要: 機械学習における査読は、投稿数の増加と査読者の限られた時間によって、ますます強い圧力にさらされています。ほとんどのLLMベースの査読システムは原稿のみを読み、論文自身の記述に基づいてコメントを生成します。これにより、出力は提示(プレゼンテーション)の品質に影響されやすく、さらに、査読に必要な根拠が関連研究や公開コードに存在する場合には弱くなってしまいます。私たちは、主張抽出、文献上の位置付け、そして実行に基づく主張検証を組み合わせた、エビデンスに根ざした査読システム FactReview を提案します。投稿が与えられると、FactReview は主要な主張と報告された結果を特定し、論文の技術的立場を明確にするために近接する研究を取得し、コードが利用可能な場合には、制約された予算のもとで公開リポジトリを実行して中核となる経験的主張を検証します。その後、簡潔な査読と、各主要な主張に対して 5 つのラベルのいずれかを割り当てるエビデンス報告を生成します。すなわち、Supported(支持される)、Supported by the paper(論文によって支持される)、Partially supported(一部支持される)、In conflict(論文と矛盾する)、Inconclusive(結論不可)です。CompGCN に関するケーススタディでは、FactReview はリンク予測およびノード分類について報告されている結果と非常に近い結果を再現しますが、一方で、タスク全体にわたる論文のより広範な性能主張は完全には裏付けられていないことも示します。具体的には、MUTAG グラフ分類では再現された結果が 88.4% であるのに対し、論文内で報告されている最も強いベースラインは 92.6% のままです。したがって、その主張は部分的にしか支持されません。より一般に、このケースは、AI は査読において最終的な意思決定者としてではなく、エビデンスを集め、査読者がよりエビデンスに根ざした評価を作成するのを助けるツールとして最も有用であることを示唆しています。コードは https://github.com/DEFENSE-SEU/Review-Assistant で公開されています。
FactReview:文献に基づく位置づけと実行ベースの主張検証によるエビデンスに根差したレビュー
arXiv cs.AI / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本研究は、AIは最終的な意思決定者ではなく、証拠の収集および査読者支援のツールとして用いると最も効果的であると主張しており、コードはGitHubで公開されている。




