科学出版エージェントにおけるBibTeX引用のハルシネーション:評価と低減

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 大規模言語モデルを用いるWeb対応の科学出版エージェントは、先行評価ではしばしばWeb検索の役割が無視されていたにもかかわらず、分野レベルで広範な誤りを含むBibTeX引用を生成し得る。
  • 著者らは、4つのドメインにまたがる931本の論文を対象としたベンチマークと、複数の引用ティア(レベル)およびバージョン対応の真値(ground truth)を導入し、9フィールドの採点方式と6分類の誤り分類(エラートロポロジー)を用いて、検索機能を備えた最先端モデル3種(GPT-5、Claude Sonnet-4.6、Gemini-3 Flash)を評価する。
  • 全体の正確度は83.6%に達する一方で、生成されたBibTeXエントリのうち完全に正しいものは50.9%にとどまり、より新しい論文では正確度が大きく低下する。これは、パラメトリックな記憶への強い依存を示唆する。
  • 2つの主要な失敗モードが特定される。すなわち、エントリ全体の置換(アイデンティティ関連のフィールドが一緒に失敗する)と、個別フィールドのみの誤りである。これらは、フィールド誤りの共起分析によって裏付けられる。
  • 対策として、オープンソースの決定論的BibTeX取得ツールclibib(Zotero Translation Serverでの取得に加え、CrossRefへのフォールバック)を評価し、「検索→権威ある記録に対する改訂」という2段階の統合により、精度を91.5%まで高め、回帰は低く(0.8%)、単一段階方式を上回ることを示す。

要旨: ウェブ検索を備えた大規模言語モデルは、科学出版のエージェントでますます利用されているが、それでもなお、領域(フィールド)単位での誤りが広範に混入したBibTeXエントリを生成してしまう。先行評価では、検索なしのベースモデルが試されており、これは現在の実務を反映していない。そこで本研究では、4つの科学分野と3つの引用ティア(人気、低引用、そしてカットオフ後の最近)にわたる931本の論文からなるベンチマークを構築する。これは、同一論文の複数の引用可能バージョンを考慮する版(バージョン)対応の真値に基づき、パラメトリック・メモリと検索依存性を切り分けることを目的とする。検索を可能にした最前線の3つのモデル(GPT-5、Claude Sonnet-4.6、Gemini-3 Flash)は、9つのフィールドと6分類の誤り分類法(エラー・タクソノミー)に基づいてスコア付けされたBibTeXエントリを生成し、約23,000件のフィールド単位の観測データを得る。全体の精度は83.6%であるが、完全に正しいのはエントリ全体のうち50.9%にとどまる。精度は人気の論文から最近の論文へと27.7pp低下し、検索が利用可能であってもパラメトリック・メモリへの強い依存が示される。フィールド誤りの共起分析により、2つの失敗モードが特定される。すなわち、エントリの全面的な置換(同一性フィールドが一緒に失敗する)と、孤立したフィールド誤りである。対策メカニズムとして、Zotero Translation ServerからCrossRefへのフォールバック付きで決定論的にBibTeXを取得するオープンソースツールclibibを評価する。権威ある記録に基づいてベースラインのエントリを訂正する二段階の統合では、精度は+8.0pp増加して91.5%となり、完全に正しいエントリは50.9%から78.3%へと増加し、回帰(regression)率はわずか0.8%である。単一段階と二段階の統合を比較するアブレーションにより、検索と訂正を分離することで、より大きな改善と低い回帰(0.8%対4.8%)が得られることが示され、統合アーキテクチャはモデル能力とは独立して重要であることが分かる。評価と、LLMベースの科学的文章における引用幻覚(citation hallucinations)の緩和を支援するために、ベンチマーク、誤り分類法、ならびにclibibツールを公開する。