金融文書処理のためのマルチエージェントLLMアーキテクチャをベンチマークする:オーケストレーション・パターンの比較、コストと精度のトレードオフ、および本番スケーリング戦略に関する比較研究

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、金融文書から構造化データを抽出するための4つのマルチエージェントLLMオーケストレーション・パターン(逐次パイプライン、並列ファンアウト/マージ、階層型スーパーバイザー・ワーカー、そして自己修正を行うリフレクシブなループ)をベンチマークする。
  • 10,000件のSEC提出書類を用い、25の抽出フィールド種別を5つの軸(フィールドF1、文書レベルの精度、レイテンシー、文書あたりのコスト、トークン効率)で評価した結果、リフレクシブ・アーキテクチャはフィールドレベルF1が最良(0.943)である一方、逐次ベースラインに比べてコストが約2.3倍かかることが分かった。
  • 階層アーキテクチャはコストと精度のトレードオフが最も良く、強い精度(F1 0.921)をベースラインコストの約1.4倍で達成し、好ましいコスト—精度のパレートフロンティア上に位置する。
  • アブレーション実験により、セマンティックキャッシュ、モデルルーティング、適応的リトライといった手法を組み合わせることで、リフレクシブによる改善の約89%を、ベースラインコストの約1.15倍という低い増分で回復できることが示される。
  • 1日あたり1K〜100K文書というスループット/スケーリング実験では、非線形なスループット—精度劣化の挙動が観測され、規制された金融領域におけるキャパシティ計画の指針が得られる。