広告

Defend:最小限の著者ガイダンスによる査読向け自動反論の生成

arXiv cs.AI / 2026/3/31

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、査読における反論を生成するための、著者が関与する(author-in-the-loop)LLMツールであるDEFENDを紹介し、完全に自由形式の文章ではなく、構造化された推論を重視している。
  • 著者らは、反論をLLMで直接生成する方法は、事実の正確性や的を射た反駁においてしばしば失敗するため、出力を根拠のあるものに保つためのより良い制御が必要であることを見出している。
  • DEFENDは3つのベースライン(直接反論生成、セグメント単位の生成、著者介入なしの逐次セグメント単位アプローチ)と比較され、DEFENDおよび著者が介入する手法は大幅に良好な性能を示す。
  • 細かな評価を支えるために、本研究ではReviewCritiqueデータセットを拡張し、レビューのセグメント分割、欠陥/誤りの種類、反論アクションのラベル、ゴールド反論セグメントへの対応付けについて新たな注釈を追加している。
  • 実験結果に加えてユーザースタディにより、最小限の著者介入によるセグメント単位の生成は、著者の認知負荷を低減しつつ、反駁の質を向上させることが示されている。

Abstract

Rebuttal generation is a critical component of the peer review process for scientific papers, enabling authors to clarify misunderstandings, correct factual inaccuracies, and guide reviewers toward a more accurate evaluation. We observe that Large Language Models (LLMs) often struggle to perform targeted refutation and maintain accurate factual grounding when used directly for rebuttal generation, highlighting the need for structured reasoning and author intervention. To address this, in the paper, we introduce DEFEND an LLM based tool designed to explicitly execute the underlying reasoning process of automated rebuttal generation, while keeping the author-in-the-loop. As opposed to writing the rebuttals from scratch, the author needs to only drive the reasoning process with minimal intervention, leading an efficient approach with minimal effort and less cognitive load. We compare DEFEND against three other paradigms: (i) Direct rebuttal generation using LLM (DRG), (ii) Segment-wise rebuttal generation using LLM (SWRG), and (iii) Sequential approach (SA) of segment-wise rebuttal generation without author intervention. To enable finegrained evaluation, we extend the ReviewCritique dataset, creating review segmentation, deficiency, error type annotations, rebuttal-action labels, and mapping to gold rebuttal segments. Experimental results and a user study demonstrate that directly using LLMs perform poorly in factual correctness and targeted refutation. Segment-wise generation and the automated sequential approach with author-in-the-loop, substantially improve factual correctness and strength of refutation.

広告