要旨: 半構造化されたビジネス文書からの情報抽出は、企業管理において依然として重要な課題である。本研究では、タスク固有のファインチューニングなしで、汎用の大規模言語モデルがスペインの電力請求書から構造化情報を抽出する能力を評価する。IDSEMデータセットの一部を用いて、アーキテクチャ的に異なる2つのモデル、Gemini 1.5 ProとMistral-smallを、19のパラメータ設定と6つのプロンプト戦略にわたってベンチマークする。実験フレームワークでは、プロンプトエンジニアリングを主要な実験変数として扱い、ゼロショットのベースラインと、ますます洗練された少数ショット手法および反復的な抽出戦略を比較する。結果は、プロンプトの質がハイパーパラメータ調整よりも支配的であることを示している。全パラメータ設定におけるF1スコアの変動はわずかである一方、ゼロショットと最良の少数ショット戦略との差は19パーセントポイントを超える。最良の設定(交差検証付き少数ショット)は、GeminiでF1スコア97.61%、Mistral-smallで96.11%を達成し、文書テンプレートの構造が抽出の難しさの主要な決定要因として浮かび上がった。これらの知見は、LLMベースの文書処理において抽出の忠実性を最大化するための重要なレバーがプロンプト設計であることを確立し、汎用LLMをビジネス文書の自動化に統合するための実証的な枠組みを提供するものである。
一般用途の大規模言語モデルによる電気料金請求書からの情報抽出
arXiv cs.CL / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本研究は、タスク固有のファインチューニングなしで、汎用LLM(Gemini 1.5 ProとMistral-small)がスペイン語の電気料金請求書から構造化情報を抽出できる能力を評価します。
- IDSEMデータセットの一部を用い、19種類のパラメータ構成と6種類のプロンプト戦略を変えて実験し、主要な検証軸としてプロンプト設計を位置づけています。
- 結果は、プロンプト品質がハイパーパラメータ調整よりも支配的であることを示しており、全構成間のF1の差は小さい一方で、最良の少数ショット手法はゼロショットを19ポイント以上上回ります。
- 最良構成(交差検証付きの少数ショット)は、Geminiで97.61%、Mistral-smallで96.11%のF1を達成し、抽出の難しさに最も影響するのが請求書テンプレート構造であることを示唆します。
- この論文は、LLMベースの業務文書自動化において抽出精度(忠実性)を最大化するための鍵がプロンプト設計であることを、実験的な枠組みとして提示しています。



