ReviewGrounder:ルーブリックに導かれツール連携するエージェントでレビューの実質性を高める

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、LLMベースの査読支援が浅く定型的なコメントになりがちな理由として、明示的なルーブリックと関連文献に基づく文脈的な根拠付けの活用が不足している点を指摘しています。
  • ルーブリックに沿ったレビュー文を評価するためのベンチマークとして、REVIEWBENCHを導入し、公式ガイドライン、論文内容、人手レビューから作成した論文固有のルーブリックに基づいて採点します。
  • さらにREVIEWGROUNDERとして、ルーブリックに導かれツール連携するマルチエージェント枠組みを提案し、レビューを作成(ドラフト)と根拠付け(グラウンディング)の段階に分解して深みのある内容へと補強します。
  • REVIEWBENCHでの実験では、REVIEWGROUNDERが8つの評価軸において人手判断とルーブリック品質の両面でベースラインを一貫して上回り、場合によってはより大きい強力モデルよりも小規模バックボーンで優位性を示します。
  • 再現性と発展のため、コードはGitHubで公開されています。

要旨: AIカンファレンスへの投稿の急速な増加により、査読支援のための大規模言語モデル(LLM)の活用がますます検討されるようになってきました。しかし、LLMベースの査読者は、実質的でエビデンスに基づいたフィードバックを欠く、表面的で定型的なコメントを生成しがちです。私たちはこの問題を、人間の査読における2つの重要な構成要素である、明示的なルーブリックと、既存研究における文脈に基づく根拠づけが十分に活用されていないことに起因すると考えます。これに対処するため、REVIEWBENCHを導入します。REVIEWBENCHは、公式ガイドライン、当該論文の内容、人手による査読をもとに論文固有のルーブリックから導出し、そのルーブリックに従ってレビュー文を評価するベンチマークです。さらに、REVIEWGROUNDERとして、ルーブリックに導かれ、ツール統合型のマルチエージェント枠組みを提案します。これは査読を、作成(drafting)段階と根拠づけ(grounding)段階に分解し、的を絞ったエビデンスの統合作業によって浅いドラフトを強化します。REVIEWBENCHに関する実験では、Phi-4-14Bベースのドラフタと、GPT-OSS-120Bベースの根拠づけ段階を用いるREVIEWGROUNDERが、8つの次元すべてにおいて、人間の判断への整合性とルーブリックに基づく査読品質の両面で、より強力/より大規模なバックボーン(たとえばGPT-4.1やDeepSeek-R1-670B)を含むベースラインを一貫して大幅に上回ることを示します。コードは\href{https://github.com/EigenTom/ReviewGrounder}{こちら}で利用可能です。