学術カリキュラム登録PDF情報抽出における、ハイブリッド決定論的手法とLLMベースアプローチの信頼性評価

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、学術コース登録(KRS)PDF情報の抽出について、3つのアプローチ(LLMのみ、ハイブリッドな正規表現+LLM、Camelotによるテーブル解析パイプラインにLLMバックアップを組み合わせた手法)の信頼性を評価する。
  • 実験では、LLMのみのテスト文書140件と、Camelotパイプライン用の文書860件を対象とし、4つの研究プログラムにまたがって、表やメタデータのレイアウトが多様なケースを扱う。
  • 3つの12〜14B規模のオープンモデル(Gemma 3、Phi 4、Qwen 2.5)を、GPUなしの一般的なCPU上でOllamaによりローカル実行し、計算資源が制約された環境における本研究の妥当性を高めている。
  • 完全一致(exact match)とレーベンシュタイン類似度(しきい値0.7)を用いると、Camelot+LLMフォールバックのパイプラインが最も高い精度を達成し(EM/LSが最大で約0.99〜1.00)、一般的にPDF処理は1秒未満で行われる。
  • 結果は、ハイブリッドな決定論的手法+LLM戦略が、特に決定論的なメタデータに関してLLMのみよりも効率を向上させることを示しており、Qwen 2.5:14bが最も一貫した性能を示す。

アブストラクト: 本研究は、3つの戦略(LLMのみ、ハイブリッド決定論的 - LLM(regex + LLM)、およびCamelotベースのパイプラインでLLMにフォールバックする方式)を用いて、KRS文書からの情報抽出アプローチの信頼性を評価する。実験は、LLMベースのテストには140文書、Camelotベースのパイプライン評価には860文書を用いて行い、表とメタデータに多様なデータを含む4つの研究プログラムを対象とした。3つの12~14B LLMモデル(Gemma 3、Phi 4、Qwen 2.5)を、OllamaおよびGPUなしの消費者向けグレードのCPUを用いてローカルで実行した。評価では、閾値0.7に基づく完全一致(EM)およびレーベンシュタイン類似度(LS)指標を用いた。すべてのモデルに適用できるわけではないが、その結果は、特に決定論的メタデータにおいて、ハイブリッド方式がLLMのみと比べて効率を向上できることを示している。LLMへのフォールバックを伴うCamelotベースのパイプラインは、精度(EMおよびLSが最大0.99~1.00)と計算効率(ほとんどの場合、PDF 1件あたり1秒未満)の最良の組み合わせをもたらした。Qwen 2.5:14bモデルは、すべてのシナリオにおいて最も一貫した性能を示した。これらの知見は、計算資源に制約のある環境における、テキストベースの学術文書からの情報抽出に向けて、決定論的手法とLLM手法を統合することが、ますます信頼性と効率を高めることを裏付けるものである。