要旨: 書誌参照の抽出と解析は、引用のインデックス化、リンク付け、および下流の学術知識グラフ構築の基礎となる。しかし、確立された多くの評価は、クリーンで英語の本文末の参考文献リストに焦点を合わせており、その結果、社会科学および人文学(SSH)分野を過小評価している。SSHでは引用が多言語であることが多く、脚注に埋め込まれ、略され、異種の歴史的慣習の影響を受けて形作られている。私たちは、これらのSSH実際の条件を対象とする統一ベンチマークを、3つの補完的データセット(CEX:複数分野にまたがる英語ジャーナル論文、EXCITE:末尾セクション、脚注のみ、混在したレジームを含むドイツ語/英語文書、LinkedBooks:人文学の参照で強い文体変動と多言語性を持つもの)に跨って提示する。参照抽出、参照解析、エンドツーエンド文書解析の3つの難易度のタスクを評価する。スキーマ制約付きの設定のもと、強力な監視付きパイプラインベースライン(GROBID)と現代的なLLMs(DeepSeek-V3.1、Mistral-Small-3.2-24B、Gemma-3-27B-it、Qwen3-VL(4B-32B系))との直接比較を可能にする。データセット全体で、抽出は中程度の能力閾値を超えると概ね飽和する一方、解析とエンドツーエンド解析は、ノイズの多いレイアウト下での構造化出力の脆弱性のため、主要なボトルネックとなる。さらに、軽量なLoRA適応は一貫した利得を生むことを示し、特にSSH重視のベンチマークで有効であること、またセグメンテーション/パイプライニングがロバスト性を大幅に向上させ得ることを示す。最後に、ルーティングを介したハイブリッド展開を提案する。構造化された分布内のPDFにはGROBIDを活用し、言語が多言語で脚注が多い文書をタスク適応型のLLMsへとエスカレーションする。
社会科学・人文学における参考文献抽出とパースのための大規模言語モデルのベンチマーク
arXiv cs.CL / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 論文は、多言語対応で多様なフォーマットに焦点を当てた、SSH(社会科学・人文学)向けの参考文献抽出とパースの統一ベンチマークを、3つのデータセット(CEX、EXCITE、LinkedBooks)に跨って提示する。
- 公正な評価のためスキーマ制約付き設定の下、強力な教師ありパイプライン(GROBID)と現代の大規模言語モデル(DeepSeek-V3.1、Mistral-Small-3.2-24B、Gemma-3-27B-it、Qwen3-VL系)を比較した。
- データセット全体で、参考文献の抽出は概ね中程度の能力にとどまる一方、参考文献のパースとエンドツーエンドの文書パースは、ノイズの多いレイアウトにおける壊れやすい構造出力のため依然としてボトルネックである。
- 軽量なLoRA適応は一貫した改善を生み出し、特にSSH重視のベンチマークで顕著で、セグメンテーションとパイプライニングは頑健性を大幅に向上させる。
- 著者らは、構造が良好なPDFをGROBIDへ、より複雑で多言語・脚注を多く含む文書をタスク適応型のLLMへ振り分けるハイブリッドデプロイメント戦略を提案している。



