科学出版エージェントにおけるBibTeX引用のハルシネーション：評価と低減

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

大規模言語モデルを用いるWeb対応の科学出版エージェントは、先行評価ではしばしばWeb検索の役割が無視されていたにもかかわらず、分野レベルで広範な誤りを含むBibTeX引用を生成し得る。
著者らは、4つのドメインにまたがる931本の論文を対象としたベンチマークと、複数の引用ティア（レベル）およびバージョン対応の真値（ground truth）を導入し、9フィールドの採点方式と6分類の誤り分類（エラートロポロジー）を用いて、検索機能を備えた最先端モデル3種（GPT-5、Claude Sonnet-4.6、Gemini-3 Flash）を評価する。
全体の正確度は83.6%に達する一方で、生成されたBibTeXエントリのうち完全に正しいものは50.9%にとどまり、より新しい論文では正確度が大きく低下する。これは、パラメトリックな記憶への強い依存を示唆する。
2つの主要な失敗モードが特定される。すなわち、エントリ全体の置換（アイデンティティ関連のフィールドが一緒に失敗する）と、個別フィールドのみの誤りである。これらは、フィールド誤りの共起分析によって裏付けられる。
対策として、オープンソースの決定論的BibTeX取得ツールclibib（Zotero Translation Serverでの取得に加え、CrossRefへのフォールバック）を評価し、「検索→権威ある記録に対する改訂」という2段階の統合により、精度を91.5%まで高め、回帰は低く（0.8%）、単一段階方式を上回ることを示す。

要旨: ウェブ検索を備えた大規模言語モデルは、科学出版のエージェントでますます利用されているが、それでもなお、領域（フィールド）単位での誤りが広範に混入したBibTeXエントリを生成してしまう。先行評価では、検索なしのベースモデルが試されており、これは現在の実務を反映していない。そこで本研究では、4つの科学分野と3つの引用ティア（人気、低引用、そしてカットオフ後の最近）にわたる931本の論文からなるベンチマークを構築する。これは、同一論文の複数の引用可能バージョンを考慮する版（バージョン）対応の真値に基づき、パラメトリック・メモリと検索依存性を切り分けることを目的とする。検索を可能にした最前線の3つのモデル（GPT-5、Claude Sonnet-4.6、Gemini-3 Flash）は、9つのフィールドと6分類の誤り分類法（エラー・タクソノミー）に基づいてスコア付けされたBibTeXエントリを生成し、約23,000件のフィールド単位の観測データを得る。全体の精度は83.6%であるが、完全に正しいのはエントリ全体のうち50.9%にとどまる。精度は人気の論文から最近の論文へと27.7pp低下し、検索が利用可能であってもパラメトリック・メモリへの強い依存が示される。フィールド誤りの共起分析により、2つの失敗モードが特定される。すなわち、エントリの全面的な置換（同一性フィールドが一緒に失敗する）と、孤立したフィールド誤りである。対策メカニズムとして、Zotero Translation ServerからCrossRefへのフォールバック付きで決定論的にBibTeXを取得するオープンソースツールclibibを評価する。権威ある記録に基づいてベースラインのエントリを訂正する二段階の統合では、精度は+8.0pp増加して91.5%となり、完全に正しいエントリは50.9%から78.3%へと増加し、回帰（regression）率はわずか0.8%である。単一段階と二段階の統合を比較するアブレーションにより、検索と訂正を分離することで、より大きな改善と低い回帰（0.8%対4.8%）が得られることが示され、統合アーキテクチャはモデル能力とは独立して重要であることが分かる。評価と、LLMベースの科学的文章における引用幻覚（citation hallucinations）の緩和を支援するために、ベンチマーク、誤り分類法、ならびにclibibツールを公開する。