自動コンプライアンス検出のためのドメイン横断データ選択とデータ拡張

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

法規文書の複雑さと多様性により、自動的な規制コンプライアンス検出は難しく、ある規制で学習したモデルは他の規制にうまく一般化できないことが課題だと論じています。
研究ではコンプライアンス検出を自然言語推論（NLI）として捉え、クロスドメイン適応におけるネガティブ・トランスファーを抑える手段としてデータ選択を検討しています。
大規模なソースドメインから拡張用データを選ぶ4つの手法（ランダムサンプリング、Moore-Lewisの交差エントロピー差、重要度重み付け、埋め込みに基づくリトリーバル）を評価しています。
選択するデータ比率を系統的に変えた結果、狙いを定めたデータ選択がドメイン間の転移を大きく改善し、多様な規制にまたがるコンプライアンス自動化の信頼性向上につながることを示しています。

要旨: 規制順守の検出を自動化することは、法文の複雑さと多様性により、依然として難しい課題です。ある規制で訓練されたモデルは、他の規制に一般化できないことがしばしばあります。この制約は、ドメイン間転移を改善するための原理に基づいた方法の必要性を示しています。本研究では、順守検出を自然言語推論（NLI）タスクとして定式化したうえで、負の転移を緩和する戦略としてデータ選択を検討します。具体的には、より大きなソースドメインから増強データを選択するための4つの手法、すなわちランダムサンプリング、Moore-Lewisの交差エントロピー差、重要度重み付け、埋め込みベースのリトリーバルを評価します。選択したデータの割合を体系的に変化させることで、それがドメイン間適応に与える影響を分析します。結果として、狙いを定めたデータ選択によって負の転移が大幅に低減されることを示し、多様な規制にまたがる、拡張可能で信頼性の高い順守自動化への実践的な道筋を提供します。

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

自動コンプライアンス検出のためのドメイン横断データ選択とデータ拡張

要点

関連記事

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer