ReLeVAnT：正確な法文本分類のための関連性語彙ベクトル

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、訓練データのキュレーションやドケット要約、検索、書面（モーション）作成・メモ作成・アウトライン作成などの下流タスクを支えるために、非構造テキストから法文書を高精度に分類することを扱う。
既存手法が提供されたメタデータ、LLMが抽出したメタデータ、またはマルチモーダル手法に依存しがちで、計算コストも大きくなりやすい点を問題としている。
提案手法ReLeVAnTは、n-gram処理、コントラストスコアマッチング、浅いニューラルネットワークを用いて、クラス間の識別に有効な語彙的特徴を活用する法文書二値分類フレームワークである。
ReLeVAnTはコーパスごとに一度だけキーワード抽出を行い、その後浅い分類器で文書を迅速かつ確実に分類し、LexGLUEデータセットで99.3%の精度と98.7%のF1を達成している。
これらの結果は、メタデータに依存しにくく計算効率の高いアプローチで、法文本分類をベンチマーク上で高い性能で実現できる可能性を示唆している。

要旨: 非構造データのコーパスから法的文書を分類することには、下流タスクにおけるいくつかの重要な応用があります。裁判所提出書類に関連する文書は、動議、メモ、アウトラインの作成といった用途、ならびに台帳（ドケット）の要約、検索システム、学習データのキュレーションのようなタスクにおいて重要です。現在の手法は、提供されるメタデータ、LLMによって抽出されたメタデータ、またはマルチモーダル手法に基づいて分類します。これらの手法は、構造化データ、メタデータ、そして大規模な計算能力に依存しています。本タスクは、クラス間で文書に現れる識別的特徴を活用するという観点から取り組みます。著者らは、法的文書の二値分類のための枠組みであるReLeVAnTを提案しています。ReLeVAnTは、識別的分類の主要な駆動要素として、n-gram処理、コントラスト学習に基づくスコアマッチング、そして浅いニューラルネットワークを利用します。コーパスごとに1回限りのキーワード抽出を行い、その後に浅い分類器を適用することで、LexGLUEデータセットにおいて精度99.3%、F1スコア98.7%を達成し、文書を迅速かつ確実に分類します。