SciCoQA:科学論文—コード整合のための品質保証

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • SciCoQAは、科学論文と対応するコードベースの間の不整合(論文内容と実装のズレ)を検出して、忠実な実装を支援するためのデータセットである。
  • SciCoQAはGitHubのissuesや再現性論文から実データを構築し、さらに論文—コード不整合を拡張するための合成データ生成手法も提案している。
  • データセット全体は635件の不整合(実92件・合成543件)で、AI分野に加えて物理・定量生物学など計算科学へ合成により拡張されている。
  • 22のLLMを評価した結果、SciCoQAは特に「論文の重要な詳細が省略されているケース」「長いコンテキスト」「モデルの事前学習コーパス外のデータ」において難易度が高いことが示された。
  • 最良のモデルでも、実世界の不整合に対して検出率46.7%にとどまり、紙—コード整合性検証が未だ難題であることが示唆される。