ReFEree: 実世界のコード要約における事実整合性を評価するための、参照不要かつきめ細かな手法

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、実世界のコード要約における事実整合性を、複数文にまたがる機能と依存関係の文脈を扱うことで評価する、参照不要かつきめ細かな評価手法 ReFEree を提案する。
  • ReFEree は、コード要約に固有の事実的不整合基準を定義し、依存情報を用いてセグメント(区間)レベルで評価した後、セグメント結果をきめ細かなスコアに集約する。
  • 著者らは、人手で注釈した事実整合性ラベルを用いるコード要約のためのベンチマークを構築し、評価と比較を可能にする。
  • 実験結果では、ReFEree が 13 個のベースラインの中で人間の判断との相関が最も高く、先行技術の水準より 15〜18% 改善したことが示される。さらに、コードとデータは公開されている。