概要: 投稿件数の急増により、科学分野の査読はますます大きな負荷に直面しており、査読品質・一貫性・迅速性を維持することが難しくなっています。近年のAIの進展により、査読におけるAIの活用がコミュニティで検討されるようになりましたが、未解決の重要な問題は、AIが現実の学会規模において技術的に妥当な査読を生成できるかどうかです。ここでは、AI支援型査読の初の大規模なフィールド展開を報告します。AAAI-26の主要トラックのすべての投稿に対し、最先端のシステムから、明確に識別された1件のAIによる査読が付与されました。このシステムは、最先端のモデル、ツール利用、そして保護策を、複数段階のプロセスに統合することで、22,977本のフル査読論文すべてに対する査読を1日未満で生成しました。AAAI-26の著者およびプログラム委員会メンバーを対象とした大規模調査では、参加者がAIによる査読を有用だと感じただけでなく、技術的正確性や研究上の提案といった重要な観点において、人間による査読よりもAIによる査読を実際に好むことが示されました。さらに、本研究では新しいベンチマークを導入し、当該システムが、科学的な多様な弱点を検出する点で、単純なLLM生成による査読ベースラインを大幅に上回ることを確認しました。これらの結果は、最先端のAI手法が、学会規模における科学的査読にすでに意味のある貢献をし得ることを示しており、研究評価のための次世代の、人とAIの相乗的なチーミングへ向けた道を開くものです。
大規模なAI支援査読:AAAI-26 AIレビュー・パイロット
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、AAAI-26におけるAI支援査読の初の大規模フィールド展開を報告しており、メイン・トラックの全採択提出論文に対して、AI生成による査読が明確に識別された形で提供された。
- 同システムは、多段階のパイプライン(最先端モデル、ツール利用、セーフガードの組み合わせ)により、1日未満で22,977本の査読対象論文に対するレビューを生成した。
- 大規模な著者およびプログラム委員会の調査では、参加者がAIによるレビューを有用と考えており、技術的正確性や研究上の提案といった重要な領域では、人間の査読よりもAIのレビューを好む場合さえあったことが明らかになった。
- 本研究は新たなベンチマークを導入し、提案手法が、科学的な弱点を検出するために単純なLLM生成のレビューを用いるベースラインを大幅に上回ることを示す。




