学術カリキュラム登録PDF情報抽出における、ハイブリッド決定論的手法とLLMベースアプローチの信頼性評価

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、学術コース登録（KRS）PDF情報の抽出について、3つのアプローチ（LLMのみ、ハイブリッドな正規表現+LLM、Camelotによるテーブル解析パイプラインにLLMバックアップを組み合わせた手法）の信頼性を評価する。
実験では、LLMのみのテスト文書140件と、Camelotパイプライン用の文書860件を対象とし、4つの研究プログラムにまたがって、表やメタデータのレイアウトが多様なケースを扱う。
3つの12〜14B規模のオープンモデル（Gemma 3、Phi 4、Qwen 2.5）を、GPUなしの一般的なCPU上でOllamaによりローカル実行し、計算資源が制約された環境における本研究の妥当性を高めている。
完全一致（exact match）とレーベンシュタイン類似度（しきい値0.7）を用いると、Camelot+LLMフォールバックのパイプラインが最も高い精度を達成し（EM/LSが最大で約0.99〜1.00）、一般的にPDF処理は1秒未満で行われる。
結果は、ハイブリッドな決定論的手法+LLM戦略が、特に決定論的なメタデータに関してLLMのみよりも効率を向上させることを示しており、Qwen 2.5:14bが最も一貫した性能を示す。

アブストラクト: 本研究は、3つの戦略（LLMのみ、ハイブリッド決定論的 - LLM（regex + LLM）、およびCamelotベースのパイプラインでLLMにフォールバックする方式）を用いて、KRS文書からの情報抽出アプローチの信頼性を評価する。実験は、LLMベースのテストには140文書、Camelotベースのパイプライン評価には860文書を用いて行い、表とメタデータに多様なデータを含む4つの研究プログラムを対象とした。3つの12～14B LLMモデル（Gemma 3、Phi 4、Qwen 2.5）を、OllamaおよびGPUなしの消費者向けグレードのCPUを用いてローカルで実行した。評価では、閾値0.7に基づく完全一致（EM）およびレーベンシュタイン類似度（LS）指標を用いた。すべてのモデルに適用できるわけではないが、その結果は、特に決定論的メタデータにおいて、ハイブリッド方式がLLMのみと比べて効率を向上できることを示している。LLMへのフォールバックを伴うCamelotベースのパイプラインは、精度（EMおよびLSが最大0.99～1.00）と計算効率（ほとんどの場合、PDF 1件あたり1秒未満）の最良の組み合わせをもたらした。Qwen 2.5:14bモデルは、すべてのシナリオにおいて最も一貫した性能を示した。これらの知見は、計算資源に制約のある環境における、テキストベースの学術文書からの情報抽出に向けて、決定論的手法とLLM手法を統合することが、ますます信頼性と効率を高めることを裏付けるものである。