要旨: 金融機関は、年間で60,000件以上の規制イベントを追跡する必要があり、手作業のコンプライアンス対応チームを圧倒してしまいます。業界は2008年の金融危機以降、3000億米ドルを超える罰金および和解金を支払ってきました。私たちは、規制の変更を自動的に監視し、構造化された義務を抽出し、さらに機関のポリシーに対してコンプライアンス上のギャップを特定する、エンドツーエンドのシステム ComplianceNLP を提案します。このシステムは3つのコンポーネントを統合します:(1) SEC、MiFID II、Basel III にまたがる12,847の条項からなる規制知識グラフにより生成を根拠付ける、知識グラフ拡張RAGパイプライン。(2) 共通の LEGAL-BERT エンコーダ上で、NER(固有表現抽出)、デオンティック分類(義務・禁止などの様相分類)、および相互参照解決を組み合わせるマルチタスク義務抽出。(3) 義務を社内ポリシーに対応付け、重要度を考慮したスコアリングによりコンプライアンス・ギャップを分析します。ベンチマークにおいて、ComplianceNLP はギャップ検出で F1=87.7 を達成し、GPT-4o+RAG を +3.5 F1 上回ります。根拠付け精度は94.2%(r=0.83 vs. 人間の判断)であり、現実的なエンドツーエンドの誤り伝播下でのF1は83.4です。アブレーションでは、知識グラフの再ランキングが最大の追加的改善(+4.6 F1)に寄与しており、構造的な規制知識が相互参照が多いタスクにとって重要であることが確認されます。ドメイン特化の知識蒸留(70B o 8B)と Medusa の推量的デコーディングを組み合わせることで、推論速度が 2.8 imes 向上します。規制文書の低エントロピー(H=2.31 ビット vs. 一般テキストの 3.87)により、ドラフト・トークンの受理率は91.3%となります。金融機関における4か月間の並列運用の処理では、9,847件の更新を処理し、推定リコール 96.0% と精度 90.7% を達成しました。さらに、アナリストの継続的な効率は 3.1 imes 向上しました。規制対象ドメインのNLPに関する、信頼度キャリブレーション、GRC統合、分布シフト監視についてのデプロイメントの知見を報告します。
ComplianceNLP:知識グラフ拡張RAGによる複数規制フレームワークの規制ギャップ検出
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- ComplianceNLPは、規制の変化を自動で監視し、構造化された義務を抽出したうえで、機関の内部ポリシーと突き合わせてコンプライアンス・ギャップを検出するエンドツーエンドのシステムである。
- SEC、MiFID II、Basel IIIの各フレームワークから12,847の条文を扱う規制知識グラフに基づき、知識グラフ拡張RAGパイプラインで生成を根拠付ける。
- LEGAL-BERTを共通エンコーダとして、NER・デオンティック分類・参照関係の解決を行うマルチタスク義務抽出を実施し、その後に重要度(severity)を考慮したギャップのスコアリングを行う。
- ベンチマークでは、ギャップ検出で87.7 F1を報告し、GPT-4o+RAGより+3.5 F1上回り、根拠付け精度が高く、現実的な誤り伝播下でも良好な性能を示した。
- 4か月の並行運用では9,847件の規制アップデートを処理し、推定リコール96.0%、適合率90.7%を達成したほか、アナリスト効率を3.1×向上させたと報告している。



