チャータード・アカウンタント業務のための検索拡張推論(Retrieval-Augmented Reasoning)

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本稿は、LLMが金融分野での導入を進める一方で、インドのチャータード・アカウンタンシーのような管轄ごとの複雑な業務では、多段の数値推論や法規制知識の不足により信頼性が十分でないと指摘しています。
  • CA-ThinkFlowとして、14Bの4ビット量子化推論モデル(14B-DeepSeek-R1)と、文書の構造を保持するレイアウト対応Docling抽出システムを組み合わせた、パラメータ効率の高いRAGフレームワークを提案しています。
  • CA-ThinkFlowはシンプルなRAGで取得した情報をプロンプトに自動投入し、モデル内蔵のChain-of-Thought(CoT)で文脈を作って回答を生成します。
  • マルチレベルのCA-Benベンチマークで評価した結果、Scholarastic Reliability Coefficient(SRC)において大規模なプロプライエタリモデルと同等レベルに到達し、GPT-4oおよびClaude 3.5 Sonnetの68.75%に相当する性能を示したと報告されています。
  • 効率性やパラメータ面での強みはあるものの、税務などに見られる複雑な規制文書の処理では、推論能力が十分に機能せず課題が残ると述べています。
  • 本研究はarXivのpreprint(v1)として公表されており、実運用済みの製品というより研究段階であることが示されています。

Abstract

大規模言語モデル(LLM)の登場は金融分野でのAI導入を促進しましたが、インドのチャータード・アカウンタンシー(CA)のような、管轄ごとに固有で複雑な業務における信頼性は依然として限定的です。これらのモデルは、多段階を要する数値タスクの実行が難しいだけでなく、法規制に関する高度な知識も必要とし、さらにその運用をスケールする方法は、資源へのアクセスが限られた環境では実現不可能です。本研究では、14Bの4-bit量子化推論モデルである14B-DeepSeek-R1と、抽出時に文書構造を維持するレイアウト認識型のDocling抽出システムを用いて動作する、パラメータ効率の高いRetrieval-Augmented Generation(RAG)フレームワークとしてCA-ThinkFlowを提案します。CA-ThinkFlowは、取得した情報をプロンプトへ自動的に追加する基本的なRAG手法を用い、文脈を作り正しい回答を生成するために、モデルに内蔵されたChain-of-Thought(CoT)機能に依存します。私たちが開発したシステムは、マルチレベルのCA-Benベンチマークで検証したところ、大規模な専有モデルに匹敵する性能レベルを示し、Scholastic Reliability Coefficient(SRC)結果としてGPT-4oとClaude 3.5 Sonnetのそれぞれの68.75\%に相当する値を達成しました。このフレームワークはパラメータ処理において高い効率性と強さを示す一方で、課税などの領域に存在する複雑な規制文書を処理するために必要な重要な推論能力が失敗します。