論文再構成評価:AIが書いた論文における提示と幻覚を評価する

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、PaperReconというフレームワークを提案する。これは、AIが書いた論文をテストするために、自動生成された概要から新しい完全な下書きを作成し、それを元のソース論文と比較するものである。
  • 2つの独立したリスク/品質の次元を評価する。すなわち、提示品質(ルーブリックによって)と、幻覚リスク(元の論文に根拠を置いたエージェント的評価によって)である。
  • 著者らは、コーディング・エージェントによる論文執筆の体系的評価を支えるために、分野の異なるポスト2025のトップ会場論文51本から成るPaperWrite-Benchを公開する。
  • 実験結果は、AIシステム間でのトレードオフを示している。ClaudeCodeは提示面でより高いスコアを出す一方で、論文あたり平均10件以上の幻覚がある。対照的にCodexは幻覚を減らすが、その代わりに提示品質は低下する。
  • 本研究は、AI駆動の研究論文生成における信頼性とリスク評価を標準化するための初期段階として位置づけられている。